首页 生活文章正文

苹果用谷歌训练,都怪英伟达太贵?

生活 2024年08月07日 13:57 507 admin

这两天,AppleIntelligence的上线成为了最大的科技新闻之一。

虽然相比1个多月前公布的完整版AppleIntelligence,苹果iOS18.1beta1中引入的AppleIntelligence功能并不完整,ImagePlayground、Genmoji、优先通知、具有屏幕感知功能的Siri和ChatGPT集成……这些统统都还没有。

但总的来说,苹果还是带来了WritingTools(写作工具)、通话录音(含转录)以及全新设计的Siri。

其中,WritingTools支持重写、专业化、简略等功能,可以用于聊天、发朋友圈、小红书笔记以及文本写作等场景;通话录音不仅可以记录通话,还能自动转录成文本,方便用户回顾。

此外,Siri也得到了「升级」,可惜目前还仅限于设计,包括全新的「跑马灯」特效以及键盘输入支持。

但引人注目的是,苹果在一篇名为《AppleIntelligenceFoundationLanguageModels》的论文中披露,苹果并没有采用常见的英伟达H100等GPU,而是选了「老对手」谷歌的TPU,训练AppleIntelligence的基础模型。

图/苹果

用谷歌TPU,炼成AppleIntelligence

众所周知,AppleIntelligence总共分成三层:一层是运行在苹果设备本地的端侧AI,一层是基于「私有云计算」技术运行在苹果自有数据中心的云端AI。按照供应链传出的消息,苹果将通过大量制造M2Ultra来构建自有数据中心。

此外还有一层,则是接入第三方云端大模型,比如GPT-4o等。

不过这是推理端,苹果是如何训练出自己的AI模型,一直是行业内关注的焦点之一。而从苹果官方的论文来看,苹果是在TPUv4和TPUv5p集群的硬件上训练了两个基础模型:

一个是参数规模达到3亿的设备端模型AFM-on-device,使用2048块TPUv5p训练而成,本地运行在苹果设备上;一个是参数规模更大的服务器端模型AFM-server,使用8192块TPUv4芯片训练,最终运行在苹果自有数据中心里。

这就奇怪了,毕竟我们都知道,英伟达H100等GPU才是目前训练AI的主流选择,甚至会有「AI训练只用NvidiaGPU」的说法。

与之相对,谷歌的TPU就显得有些「名不见经传」。

但事实上,谷歌的TPU是专为机器学习和深度学习任务设计的加速器,能够提供卓越的性能优势。凭借其高效的计算能力和低延迟的网络连接,谷歌的TPU在处理大型模型训练任务时表现出色。

例如,TPUv4就能提供了每个芯片高达275TFLOPS的峰值算力,并通过超高速互连将4096个TPUv4芯片连接成一个大规模的TPU超算,从而实现算力规模的倍增。

而且不仅是苹果,其他大模型公司也采用了谷歌的TPU来训练他们的大型模型。Anthropic公司的Claude就是一个典型的例子。

聊天机器人竞技场排行,图/LMSYS

Claude如今可以说是OpenAIGPT模型最强大的竞争对手,在LMSYS聊天机器人竞技场上,Claude3.5Sonnet与GPT-4o始终是「卧龙凤雏」(褒义)。而据披露,Anthropic一直没有购买英伟达GPU来搭建超算,就是使用GoogleCloud上TPU集群来训练和推理。

去年底,Anthropic还官宣率先使用GoogleCloud上的TPUv5e集群来训练Claude。

Anthropic的长期使用,以及Claude表现出来的效果,都充分展示了谷歌TPU在AI训练中的高效性和可靠性。

此外,谷歌的Gemini也是完全依赖于自研的TPU芯片进行训练。Gemini模型旨在推进自然语言处理和生成技术的前沿,其训练过程需要处理大量的文本数据,并进行复杂的模型计算。

而TPU的强大计算能力和高效的分布式训练架构,使得Gemini能够在相对较短的时间内完成训练,并在性能上取得显著突破。

但如果说Gemini尚可理解,那从Anthropic到苹果又为什么选择谷歌TPU,而不是英伟达GPU?

TPU和GPU,谷歌和英伟达的暗战

在本周一举办的计算机图形学顶级会议SIGGRAPH2024上,英伟达创始人兼CEO黄仁勋透露,本周英伟达就将发送Blackwell架构的样品,这是英伟达最新一代的GPU架构。

2024年3月18日,英伟达GTC大会上发布了其最新一代GPU架构——Blackwell,以及最新一代B200GPU。在性能上,B200GPU在FP8及新的FP6上可以达到20petaflops(每秒千万亿次浮点运算)的算力,使其在处理复杂AI模型时表现出色。

Blackwell发布的两个月后,谷歌也发布了其第六代TPU(TrilliumTPU),每块芯片在BF16下可以提供接近1000TFLOPS(每秒万亿次)的峰值算力,谷歌也将其评价为「迄今为止性能最高、最节能的TPU」。

图/谷歌

对比谷歌的TrilliumTPU,英伟达BlackwellGPU在高带宽内存(HBM3)和CUDA生态系统的支持下,在高性能计算中仍然有着一定的优势。在单个系统中,Blackwell可以并行连接多达576个GPU,实现强大的算力和灵活的扩展性。

相比之下,谷歌的TrilliumTPU则注重在大规模分布式训练中的高效性和低延迟。TPU的设计使其能够在大规模模型训练中保持高效,并通过超高速网络互连减少通信延迟,从而提高整体计算效率。

而不仅是在最新一代的AI芯片上,谷歌与英伟达之间的「暗战」实际已经存在了8年,从2016年谷歌自研AI芯片TPU就开始。

到今天,英伟达的H100GPU是目前主流市场上最受欢迎的AI芯片,不仅提供了高达80GB的高带宽内存,还支持HBM3内存,并通过NVLink互连实现多GPU的高效通信。基于TensorCore技术,H100GPU在深度学习和推理任务中具有极高的计算效率。

但同时,TPUv5e在性价比上具有显著优势,特别适合中小规模模型的训练。TPUv5e的优势在于其强大的分布式计算能力和优化的能耗比,使其在处理大规模数据时表现出色。此外,TPUv5e还通过谷歌云平台提供,便于用户进行灵活的云端训练和部署。

谷歌数据中心,图/谷歌

整体来说,英伟达和谷歌在AI芯片上的策略各有侧重:英伟达通过提供强大的算力和广泛的开发者支持,推动AI模型的性能极限;而谷歌则通过高效的分布式计算架构,提升大规模AI模型训练的效率。这两种不同的路径选择,使得它们在各自的应用领域中都展现出了独特的优势。

不过更重要的是,能打败英伟达的,也只有采用软硬件协同设计策略,同时拥有强大的芯片能力和软件能力的对手。

谷歌就是这样一个对手。

英伟达霸权的最强挑战者

Blackwell是继Hopper之后英伟达的又一重大升级,具有强大的计算能力,专为大规模语言模型(LLM)和生成式AI而设计。

据介绍,B200GPU采用了台积电N4P工艺制造,拥有多达2080亿个晶体管,由两块GPU芯片采用互连技术「组成」,并且配备了高达192GB的HBM3e(高带宽内存),带宽可达8TB/s。

而在性能上,谷歌的TrilliumTPU相比上一代TPUv5e在BF16下提升了4.7倍,HBM容量和带宽、芯片互连带宽也都翻了一番。此外,TrilliumTPU还配备了第三代SparseCore,可以加速训练新一代基础模型,延迟更低,成本也更低。

TrilliumTPU特别适合大规模语言模型和推荐系统的训练,可以扩展出数百个集,通过每秒PB级别的网络互连技术连接数以万计的芯片,实现另一种层面的超级「计算机」,大幅提升计算效率和减少网络延迟。

从今年下半年开始,GoogleCloud用户就能率先采用这款芯片。

总的来说,谷歌TPU的硬件优势在于其高效的算力和低延迟的分布式训练架构。这使得TPU在大规模语言模型和推荐系统的训练中表现出色。然而,谷歌TPU的优势还在于独立于CUDA之外另一个完整的生态,以及更深度的垂直整合。

通过GoogleCloud平台,用户可以灵活地在云端进行训练和部署。这种云端服务模式不仅减少了企业在硬件上的投入,还提高了AI模型的训练效率。Google、Cloud还提供了一系列支持AI开发的工具和服务,如TensorFlow和JupyterNotebook,使开发者能够更加便捷地进行模型训练和测试。

苹果用上的谷歌TPUv5p,图/谷歌

谷歌的AI生态系统中还包含了多种开发工具和框架,如TensorFlow,这是一个广泛使用的开源机器学习框架,能够充分利用TPU的硬件加速功能。谷歌还提供了其他支持AI开发的工具,如TPUEstimator和Keras,这些工具的无缝集成大大简化了开发流程。

此外,谷歌的优势还在于:谷歌自己就是对TPU算力需求最大的客户。从YouTube海量视频内容的处理,到Gemini的每一次训练和推理,TPU早就融入谷歌的业务体系之中,也满足了谷歌的巨量算力需求。

可以说,谷歌的垂直整合远比英伟达来得彻底,几乎完全掌握了从模型训练到应用,再到用户体验的关键节点,这实际也给了谷歌更大的可能,可以根据技术和市场趋势从底层开始优化效率。

所以尽管在芯片的性能指标上,TrilliumTPU依然难以和BlackwellGPU相抗衡,然而具体到大模型的训练上,谷歌仍能通过系统性地优化效率,比肩甚至超越英伟达CUDA生态。

在GoogleCloud用TPU,是苹果最好的选择

简言之,谷歌TPU集群性能、成本和生态的优势,使其成为大规模AI模型训练的理想选择。反过来,在GoogleCloud用TPU也是苹果现阶段最好的选择。

基于TPUv4的超算,苹果也用到了。图/谷歌

一方面是性能和成本。TPU在处理大规模分布式训练任务时表现出色,提供高效、低延迟的计算能力,满足苹果在AI模型训练中的需求。而通过使用GoogleCloud平台,苹果可以降低硬件成本,灵活调整计算资源,优化AI开发的总体成本。

另一方面是生态。谷歌的AI开发生态系统也提供了丰富的工具和支持,使得苹果能够更高效地开发和部署其AI模型,再加上GoogleCloud的强大基础设施和技术支持也为苹果的AI项目提供了坚实的保障。

今年3月,曾经任职于英伟达、IBM和谷歌的SumitGupta加入了苹果,领导云基础设施。根据报道,SumitGupta于2021年加入谷歌的AI基础设施团队,并最终成为了谷歌TPU、自研ArmCPU等基础设施的产品经理。

SumitGupta比苹果内部绝大部分人都更了解谷歌TPU的优势所在。

2024上半年,科技圈风起云涌。

大模型加速落地,AI手机、AIPC、AI家电、AI搜索、AI电商……AI应用层出不穷;

VisionPro开售并登陆中国市场,再掀XR空间计算浪潮;

HarmonyOSNEXT正式发布,苹果用谷歌训练,都怪英伟达太贵?移动OS生态生变;

汽车全面进入“下半场”,智能化成头等大事;

电商竞争日益剧烈,卷低价更卷服务;

出海浪潮风起云涌,中国品牌迈上全球化征程;

……

7月流火,雷科技·年中回顾专题上线,总结科技产业2024上半年值得记录的品牌、技术和产品,记录过去、展望未来,敬请关注。

标签: 苹果用谷歌训练都怪英伟达太贵?

电子商贸中心网 网站地图 免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:2760375052 版权所有:惠普科技网沪ICP备2023023636号-1