⚡花旗研究快报🖥️英伟达-GPU与XPU之争:人工智能基础设施峰会及超大规模企业主题演讲📌花旗观点💡近日我们参加了在圣克拉拉举办的人工智能基础设施峰会首日活动,并整理了超大规模企业(Meta、亚马逊、谷歌)主题演讲的核心要点。🌐总体而言,尽管所有主要超大规模企业均已大规模部署GB200/GB30芯片,但它们同时表示,也在与AMD等其他GPU制造商合作,并开发内部定制芯片,以支持人工智能工作负载的多样性,最终实现每瓦最低性价比。🏢Meta(叶俊松,工程与基础设施基础部门副总裁)🤖Meta面临的人工智能复杂度正不断提升,短视频业务推动了对人工智能排序与推荐功能的需求,进而促使计算集群规模扩张。生成式人工智能模型Llama3使用了2.4万台GPU,Llama4使用了约10万台GPU;未来生成式人工智能集群的扩张预计将催生千兆瓦级(GW)数据中心——例如,2026年将建成的“普罗米修斯”(Prometheus)1千兆瓦以上集群,以及未来几年内建成的“许珀里翁”(Hyperion)5千兆瓦集群。💻运营GPU集群与运营CPU集群面临截然不同的挑战:GPU集群是由多台GPU组成的超级计算机,需协同完成单个长期运行的任务。🔧在人工智能工作负载(如大语言模型(LLM)训练、大语言模型推理预填充、大语言模型推理解码、排序与推荐(R&R)训练、排序与推荐推理)中,不存在“一刀切”的计算规格。模型规模正快速演进,基础设施需在规模、计算、内存及网络层面进行优化。🖥️Meta已大规模部署GB200与GB300芯片,同时也在与AMD合作推进MI300X芯片;其内部定制ASIC芯片“MTIA系列加速器”,可聚焦人工智能工作负载多样性,为排序与推荐推理/训练、生成式人工智能推理/训练的目标提供稳健的技术路线图。🌍Meta支持开源系统,如Llama、DeepSeek模型,以及PyTorch(深度学习框架)、UltraEthernet(超以太网)、UltraAcceleratorLink(UAL,超加速器链路)。☁️亚马逊云服务(AWS,巴里・库克,计算服务部门副总裁)⚡延迟、计算性能与规模弹性是人工智能基础设施最重要的核心要素。🖥️亚马逊云服务在GPU运行方面具备优势:亚马逊EC2P6-B200实例适用于中大规模训练与推理任务,而P6e-GB200超级服务器是亚马逊云服务推出的性能最强的GPU产品。💡Trainium芯片是专为实现高性能与低成本开发的产品,亚马逊EC2Trn2超级服务器为亚马逊云服务上的生成式人工智能提供最佳性价比;亚马逊将使用EC2超级集群支持Anthropic公司的“雷尼尔”(Rainier)项目,以提供520FP8百亿亿次(exaflops)计算能力。此外,亚马逊云服务还设计了定制冷板方案,为Trainium集群提供支持。🔍谷歌(塞巴斯蒂安・穆加赞比,人工智能基础设施部门产品经理)💰人工智能计算成本激增是当前面临的关键挑战,已成为整体计算成本的主要组成部分。💻定制ASIC芯片(或TPU,张量处理单元)是应对这一挑战的核心解决方案——这类专为特定人工智能任务设计的计算基础设施,可实现高性能、成本/功耗效率优化及无缝扩展。🚀谷歌今年推出了第七代IronwoodTPU,单个Pod(计算单元)包含9216颗芯片,高带宽内存(HBM)容量较2024年的TrilliumTPU提升6倍。该TPU目前已用于谷歌内部工作负载,支持Gemini、AlphaFold、Imagen、Video、AlphaGo/Zero及AlphaChip(芯片设计智能体,可辅助设计未来TPU版本),同时也应用于谷歌云平台(GCP)。🏭谷歌拥有配备TPU的专用数据中心,通过垂直供电提升能效,借助同步高带宽芯片间互连(ICI)提升吞吐量,利用光电路交换(OCS)实现容错与高效调度,并采用液冷技术最大化系统效率。专用TPU硬件可实现大规模部署、大容量共享内存、成本与功耗优化、高可靠性及灵活性与韧性。