苹果用谷歌训练，都怪英伟达太贵？

生活 2024年08月07日 13:57 507 admin

这两天，AppleIntelligence的上线成为了最大的科技新闻之一。

虽然相比1个多月前公布的完整版AppleIntelligence，苹果iOS18.1beta1中引入的AppleIntelligence功能并不完整，ImagePlayground、Genmoji、优先通知、具有屏幕感知功能的Siri和ChatGPT集成……这些统统都还没有。

但总的来说，苹果还是带来了WritingTools（写作工具）、通话录音（含转录）以及全新设计的Siri。

其中，WritingTools支持重写、专业化、简略等功能，可以用于聊天、发朋友圈、小红书笔记以及文本写作等场景；通话录音不仅可以记录通话，还能自动转录成文本，方便用户回顾。

此外，Siri也得到了「升级」，可惜目前还仅限于设计，包括全新的「跑马灯」特效以及键盘输入支持。

但引人注目的是，苹果在一篇名为《AppleIntelligenceFoundationLanguageModels》的论文中披露，苹果并没有采用常见的英伟达H100等GPU，而是选了「老对手」谷歌的TPU，训练AppleIntelligence的基础模型。

图/苹果

用谷歌TPU，炼成AppleIntelligence

众所周知，AppleIntelligence总共分成三层：一层是运行在苹果设备本地的端侧AI，一层是基于「私有云计算」技术运行在苹果自有数据中心的云端AI。按照供应链传出的消息，苹果将通过大量制造M2Ultra来构建自有数据中心。

此外还有一层，则是接入第三方云端大模型，比如GPT-4o等。

不过这是推理端，苹果是如何训练出自己的AI模型，一直是行业内关注的焦点之一。而从苹果官方的论文来看，苹果是在TPUv4和TPUv5p集群的硬件上训练了两个基础模型：

一个是参数规模达到3亿的设备端模型AFM-on-device，使用2048块TPUv5p训练而成，本地运行在苹果设备上；一个是参数规模更大的服务器端模型AFM-server，使用8192块TPUv4芯片训练，最终运行在苹果自有数据中心里。

这就奇怪了，毕竟我们都知道，英伟达H100等GPU才是目前训练AI的主流选择，甚至会有「AI训练只用NvidiaGPU」的说法。

与之相对，谷歌的TPU就显得有些「名不见经传」。

但事实上，谷歌的TPU是专为机器学习和深度学习任务设计的加速器，能够提供卓越的性能优势。凭借其高效的计算能力和低延迟的网络连接，谷歌的TPU在处理大型模型训练任务时表现出色。

例如，TPUv4就能提供了每个芯片高达275TFLOPS的峰值算力，并通过超高速互连将4096个TPUv4芯片连接成一个大规模的TPU超算，从而实现算力规模的倍增。

而且不仅是苹果，其他大模型公司也采用了谷歌的TPU来训练他们的大型模型。Anthropic公司的Claude就是一个典型的例子。

聊天机器人竞技场排行，图/LMSYS

Claude如今可以说是OpenAIGPT模型最强大的竞争对手，在LMSYS聊天机器人竞技场上，Claude3.5Sonnet与GPT-4o始终是「卧龙凤雏」（褒义）。而据披露，Anthropic一直没有购买英伟达GPU来搭建超算，就是使用GoogleCloud上TPU集群来训练和推理。

去年底，Anthropic还官宣率先使用GoogleCloud上的TPUv5e集群来训练Claude。

Anthropic的长期使用，以及Claude表现出来的效果，都充分展示了谷歌TPU在AI训练中的高效性和可靠性。

此外，谷歌的Gemini也是完全依赖于自研的TPU芯片进行训练。Gemini模型旨在推进自然语言处理和生成技术的前沿，其训练过程需要处理大量的文本数据，并进行复杂的模型计算。

而TPU的强大计算能力和高效的分布式训练架构，使得Gemini能够在相对较短的时间内完成训练，并在性能上取得显著突破。

但如果说Gemini尚可理解，那从Anthropic到苹果又为什么选择谷歌TPU，而不是英伟达GPU？

TPU和GPU，谷歌和英伟达的暗战

在本周一举办的计算机图形学顶级会议SIGGRAPH2024上，英伟达创始人兼CEO黄仁勋透露，本周英伟达就将发送Blackwell架构的样品，这是英伟达最新一代的GPU架构。

2024年3月18日，英伟达GTC大会上发布了其最新一代GPU架构——Blackwell，以及最新一代B200GPU。在性能上，B200GPU在FP8及新的FP6上可以达到20petaflops（每秒千万亿次浮点运算）的算力，使其在处理复杂AI模型时表现出色。

Blackwell发布的两个月后，谷歌也发布了其第六代TPU（TrilliumTPU），每块芯片在BF16下可以提供接近1000TFLOPS（每秒万亿次）的峰值算力，谷歌也将其评价为「迄今为止性能最高、最节能的TPU」。

图/谷歌

对比谷歌的TrilliumTPU，英伟达BlackwellGPU在高带宽内存（HBM3）和CUDA生态系统的支持下，在高性能计算中仍然有着一定的优势。在单个系统中，Blackwell可以并行连接多达576个GPU，实现强大的算力和灵活的扩展性。

相比之下，谷歌的TrilliumTPU则注重在大规模分布式训练中的高效性和低延迟。TPU的设计使其能够在大规模模型训练中保持高效，并通过超高速网络互连减少通信延迟，从而提高整体计算效率。

而不仅是在最新一代的AI芯片上，谷歌与英伟达之间的「暗战」实际已经存在了8年，从2016年谷歌自研AI芯片TPU就开始。

到今天，英伟达的H100GPU是目前主流市场上最受欢迎的AI芯片，不仅提供了高达80GB的高带宽内存，还支持HBM3内存，并通过NVLink互连实现多GPU的高效通信。基于TensorCore技术，H100GPU在深度学习和推理任务中具有极高的计算效率。

但同时，TPUv5e在性价比上具有显著优势，特别适合中小规模模型的训练。TPUv5e的优势在于其强大的分布式计算能力和优化的能耗比，使其在处理大规模数据时表现出色。此外，TPUv5e还通过谷歌云平台提供，便于用户进行灵活的云端训练和部署。

谷歌数据中心，图/谷歌

整体来说，英伟达和谷歌在AI芯片上的策略各有侧重：英伟达通过提供强大的算力和广泛的开发者支持，推动AI模型的性能极限；而谷歌则通过高效的分布式计算架构，提升大规模AI模型训练的效率。这两种不同的路径选择，使得它们在各自的应用领域中都展现出了独特的优势。

不过更重要的是，能打败英伟达的，也只有采用软硬件协同设计策略，同时拥有强大的芯片能力和软件能力的对手。

谷歌就是这样一个对手。

英伟达霸权的最强挑战者

Blackwell是继Hopper之后英伟达的又一重大升级，具有强大的计算能力，专为大规模语言模型（LLM）和生成式AI而设计。

据介绍，B200GPU采用了台积电N4P工艺制造，拥有多达2080亿个晶体管，由两块GPU芯片采用互连技术「组成」，并且配备了高达192GB的HBM3e（高带宽内存），带宽可达8TB/s。

而在性能上，谷歌的TrilliumTPU相比上一代TPUv5e在BF16下提升了4.7倍，HBM容量和带宽、芯片互连带宽也都翻了一番。此外，TrilliumTPU还配备了第三代SparseCore，可以加速训练新一代基础模型，延迟更低，成本也更低。

TrilliumTPU特别适合大规模语言模型和推荐系统的训练，可以扩展出数百个集，通过每秒PB级别的网络互连技术连接数以万计的芯片，实现另一种层面的超级「计算机」，大幅提升计算效率和减少网络延迟。

从今年下半年开始，GoogleCloud用户就能率先采用这款芯片。

总的来说，谷歌TPU的硬件优势在于其高效的算力和低延迟的分布式训练架构。这使得TPU在大规模语言模型和推荐系统的训练中表现出色。然而，谷歌TPU的优势还在于独立于CUDA之外另一个完整的生态，以及更深度的垂直整合。

通过GoogleCloud平台，用户可以灵活地在云端进行训练和部署。这种云端服务模式不仅减少了企业在硬件上的投入，还提高了AI模型的训练效率。Google、Cloud还提供了一系列支持AI开发的工具和服务，如TensorFlow和JupyterNotebook，使开发者能够更加便捷地进行模型训练和测试。

苹果用上的谷歌TPUv5p，图/谷歌

谷歌的AI生态系统中还包含了多种开发工具和框架，如TensorFlow，这是一个广泛使用的开源机器学习框架，能够充分利用TPU的硬件加速功能。谷歌还提供了其他支持AI开发的工具，如TPUEstimator和Keras，这些工具的无缝集成大大简化了开发流程。

此外，谷歌的优势还在于：谷歌自己就是对TPU算力需求最大的客户。从YouTube海量视频内容的处理，到Gemini的每一次训练和推理，TPU早就融入谷歌的业务体系之中，也满足了谷歌的巨量算力需求。

可以说，谷歌的垂直整合远比英伟达来得彻底，几乎完全掌握了从模型训练到应用，再到用户体验的关键节点，这实际也给了谷歌更大的可能，可以根据技术和市场趋势从底层开始优化效率。

所以尽管在芯片的性能指标上，TrilliumTPU依然难以和BlackwellGPU相抗衡，然而具体到大模型的训练上，谷歌仍能通过系统性地优化效率，比肩甚至超越英伟达CUDA生态。

在GoogleCloud用TPU，是苹果最好的选择

简言之，谷歌TPU集群性能、成本和生态的优势，使其成为大规模AI模型训练的理想选择。反过来，在GoogleCloud用TPU也是苹果现阶段最好的选择。

基于TPUv4的超算，苹果也用到了。图/谷歌

一方面是性能和成本。TPU在处理大规模分布式训练任务时表现出色，提供高效、低延迟的计算能力，满足苹果在AI模型训练中的需求。而通过使用GoogleCloud平台，苹果可以降低硬件成本，灵活调整计算资源，优化AI开发的总体成本。

另一方面是生态。谷歌的AI开发生态系统也提供了丰富的工具和支持，使得苹果能够更高效地开发和部署其AI模型，再加上GoogleCloud的强大基础设施和技术支持也为苹果的AI项目提供了坚实的保障。

今年3月，曾经任职于英伟达、IBM和谷歌的SumitGupta加入了苹果，领导云基础设施。根据报道，SumitGupta于2021年加入谷歌的AI基础设施团队，并最终成为了谷歌TPU、自研ArmCPU等基础设施的产品经理。

SumitGupta比苹果内部绝大部分人都更了解谷歌TPU的优势所在。

2024上半年，科技圈风起云涌。

大模型加速落地，AI手机、AIPC、AI家电、AI搜索、AI电商……AI应用层出不穷；

VisionPro开售并登陆中国市场，再掀XR空间计算浪潮；

HarmonyOSNEXT正式发布，苹果用谷歌训练，都怪英伟达太贵？移动OS生态生变；

汽车全面进入“下半场”，智能化成头等大事；

电商竞争日益剧烈，卷低价更卷服务；

出海浪潮风起云涌，中国品牌迈上全球化征程；

……

7月流火，雷科技·年中回顾专题上线，总结科技产业2024上半年值得记录的品牌、技术和产品，记录过去、展望未来，敬请关注。

标签：苹果用谷歌训练都怪英伟达太贵？

苹果用谷歌训练，都怪英伟达太贵？

技术视角数据安全与系统稳定

淘汰老款！曝苹果吃硬件，目前只有两款能用

热门文章