云提供商正在打造GPU 大军,以提供更多的人工智能火力。在刚刚举行的谷歌I/O年度开发者大会上,谷歌宣布了一款拥有26000个GPU的人工智能超级计算机。 Compute Engine A3超级计算机再次证明,在与微软的人工智能霸主之战中,谷歌正在投入更多资源进行积极反击。
该超级计算机拥有大约26,000 个Nvidia H100 Hopper GPU。作为参考,世界上最快的超级计算机Frontier 拥有37,000 个AMD Instinct 250X GPU。
【资料图】
4 月,Nvidia 首席执行官黄仁勋展示了带有8 个H100 Hopper GPU 的Nvidia DGX H100 系统背板。
谷歌发言人在一封电子邮件中表示:“对于我们最大的客户,我们可以在一个集群中构建最多配备26,000 个GPU 的A3 超级计算机,并且正在努力在我们最大的区域构建多个集群。”补充道,“并非我们所有的节点都会扩展到这个大小。”
该系统是在加利福尼亚州山景城举行的Google I/O 开发者大会上宣布的。此次开发者大会已经成为谷歌众多人工智能软硬件能力的集中展示地。在微软将其OpenAI技术应用于必应搜索和生产力软件应用程序后,谷歌加速了人工智能的发展。
该超级计算机面向想要训练大型语言模型(LLM)的客户。现在许多云提供商都在部署H100 GPU,Nvidia 在3 月份推出了自己的DGX 云服务,与租用上一代A100 GPU 相比,价格非常昂贵。
谷歌表示,A3 超级计算机是其现有使用Nvidia A100 GPU 的A2 虚拟机提供的计算资源的重大升级。 Google 正在将其所有分布式A3 计算实例整合到一台超级计算机中。
谷歌总监Roy Kim 和产品经理Chris Kleban 在博客文章中表示:“A3 超级计算机的规模可提供高达26 exaflops 的AI 性能,显着缩短训练大型机器学习模型的时间和成本。”指标用于估计人工智能计算机的基线性能。
GPU数量已经成为云提供商推广人工智能计算服务的重要名片和指标。微软与OpenAI 合作构建的Azure 人工智能超级计算机拥有285,000 个CPU 核心和10,000 个GPU。微软还宣布了其下一代人工智能超级计算机,该计算机拥有更多GPU。 Oracle 的云服务提供对512 个GPU 集群的访问,并正在开发新技术以提高GPU 间的通信速度。
谷歌一直在大肆宣传其TPU v4人工智能芯片,该芯片被用来运行LLM的内部人工智能应用程序,例如谷歌的Bard产品。谷歌人工智能子公司DeepMind 表示,快速TPU(张量处理器)正在引导通用和科学应用人工智能的开发。
相比之下,谷歌的A3超级计算机用途广泛,可以适应各种AI应用和LLM。 “鉴于这些工作负载的高需求,一刀切的方法是不够的。你需要专门为人工智能构建的基础设施,”Kim 和Kleban 在一篇博客文章中表示。
尽管谷歌非常喜欢它的TPU,但由于客户正在使用CUDA 编写人工智能应用程序,Nvidia 的GPU 已经成为云提供商的必需品。 CUDA是NVIDIA专有的并行编程模型,该软件工具包基于H100专业人工智能和图形核心提供的加速来生成最快的结果。
客户可以通过A3虚拟机运行AI应用程序,并通过Vertex AI、Google Kubernetes Engine和Google Compute Engine服务使用Google的AI开发和管理服务。
Google 的A3 超级计算机融合了多种技术来提高GPU 到GPU 的通信和网络性能。 A3虚拟机基于Intel第四代Xeon芯片(代号Sapphire Rapids),封装H100 GPU。目前尚不清楚虚拟机中的虚拟CPU 是否支持Sapphire Rapids 芯片内置的推理加速器。虚拟机配备DDR5 内存。
Nvidia H100 上的训练模型比其前身A100 GPU 更快、更便宜,后者在云中广泛使用。 AI 服务公司MosaicML 的一项研究发现,H100 在其70 亿参数MosaicGPT 大语言模型上“比NVIDIA A100 成本效益高30%,速度快3 倍”。
H100 还可以进行推理,但考虑到H100 提供的处理能力,可能会被认为是矫枉过正。谷歌云提供Nvidia 的L4 GPU 用于推理,英特尔也在其Sapphire Rapids CPU 中提供推理加速器。
谷歌的Kim 和Kleban 表示:“A3 VM 也非常适合推理工作负载,与A2 VM 的A100 GPU 相比,推理性能提高了30 倍。”
A3 VM 是第一批通过称为Mount Evans 的基础设施处理单元(IPU) 连接到GPU 实例的VM。 IPU 由Google 和Intel 联合开发,允许A3 虚拟机卸载传统上由虚拟CPU 完成的网络、存储管理和安全功能的工作负载。 IPU 允许以200Gbps 的速度传输数据。
谷歌高管在博文中表示:“A3是第一个使用我们定制设计的200Gbps IPU的GPU实例。GPU到GPU的数据传输绕过CPU主机,与其他虚拟机网络和数据流量分开接口传输。与A2 虚拟机相比,网络带宽增加了10 倍,并且具有低延迟和高带宽稳定性。”
IPU 吞吐量可能很快就会受到微软的挑战,微软即将推出的由Nvidia H100 GPU 驱动的人工智能超级计算机将采用该芯片制造商的Quantum-2 400Gbps 网络功能。微软尚未透露其下一代人工智能超级计算机中H100 GPU 的数量。
A3 超级计算机建立在该公司Jupiter 数据中心网络结构的主干之上,该网络结构通过光纤连接地理上分离的GPU 集群。