AI基础设施的未来:谷歌与微软在多数据中心训练中的竞争态势
常华Andy
谷歌、OpenAI和Anthropic已着手将大规模模型训练扩展至多个数据中心园区。谷歌拥有全球最先进的计算系统,率先大规模应用机架级液冷架构和多数据中心训练等关键技术。微软和OpenAI深知自身在基础设施方面的短期劣势,因此启动了一项雄心勃勃的计划,试图在基础设施建设上赶超谷歌。他们正努力在谷歌的强项领域——水冷多数据中心训练集群上与之一较高下。
谷歌与微软核心能力对比
基础设施与扩展能力
谷歌:爱荷华州Council Bluffs园区IT容量接近300兆瓦,预计2023年总容量将超500兆瓦。俄亥俄州和爱荷华州/内布拉斯加州预计2025年底总容量将达1吉瓦,哥伦布地区即将建设的吉瓦级集群。2025年预计在多个园区进行吉瓦级训练,2026年形成吉瓦级AI训练集群。
微软:凤凰城最大AI训练基地计划扩展至10座建筑,自建24个数据中心。威斯康星州自建超级园区,成为最大单一数据中心园区。德克萨斯州与Oracle+Crusoe和CoreWeave+Core Scientific合作,建设多个吉瓦级数据中心,计划在全美范围内扩建,目标在规模上超越谷歌。
冷却技术
谷歌:采用直接到芯片(Direct-to-Chip)的水冷方式,通过液-液热交换器将机架热量转移至中央设施水系统,部署数百万颗液冷TPU,总容量超过1吉瓦。
微软:目前最大的数据训练集群尚未采用液冷技术,计划在密尔沃基和亚特兰大建设全液冷设计的单体建筑,专用于下一代AI硬件。
能源效率
谷歌:实现1.1的PUE,大部分时间无需使用冷水机组,采用巨型冷却塔和集中式水系统,能散发近200兆瓦热量。
微软:PUE为1.223,风扇功耗超过服务器功率的15%。计划在未来园区采用空冷冷水机组,水使用效率(WUE)达2.24升/千瓦时,远高于行业平均的0.49。
AI技术与产品
谷歌:Gemini 1 Ultra模型率先实现多数据中心训练,即将发布的Gemini 2有望在合成数据、强化学习和模型架构方面赶超OpenAI和Anthropic,部署数百万颗液冷TPU。
通信网络
谷歌:在俄亥俄州和爱荷华州/内布拉斯加州的集中区域可进一步互联,支持单一模型的多吉瓦训练,采用高带宽光纤网络,确保多数据中心间的低延迟通信。
微软:与Lumen Technologies和Zayo合作,利用先进的光纤技术和基础设施支持大规模AI训练集群,计划通过高速光纤网络实现多园区间的低延迟通信和数据传输。
微软吉瓦级AI训练集群计划
一、概况
目标: 将多个园区互联,打造大规模AI训练集群。
合作伙伴: Lumen Technologies与Zayo为微软提供光纤技术支持,构建高性能计算网络。
需求: 需要处理海量数据,实现低延迟通信,以满足AI模型训练的需求。
二、Lumen Technologies的角色与挑战
协议签署: Lumen与微软达成50亿美元的互连协议,并与Corning签署了保持10%产能的协议。
市场需求: AI推动的光纤需求急剧上升,Lumen计划再争取70亿美元的销售机会。
闲置资源: Lumen拥有大量“暗光纤”未被充分利用,面临升级机会。
三、电信行业的趋势与挑战
资本支出: 预计未来电信资本支出将超过100亿美元,专门用于多数据中心的AI训练。
价格压力: 由于互联网价格下降,企业流量向互联网迁移,造成对MPLS需求的减少。
四、受益公司及其发展前景
Fabrinet: 通过400ZR产品线受益,电信业务占收入的近40%,并与多家电信客户保持良好合作。
Lumentum: 受ZR/ZR+光学器件需求增长的推动,预计实现显著收入增长。
Ciena: 在电信硬件市场占据领先地位,特别是在AI流量需求驱动下,订单持续增长。
Cisco: 超大规模客户的订单实现两位数增长,预计未来还将继续获得AI相关订单。
Marvell: 在ZR光学和相干DSP领域具备竞争优势,相关业务快速增长,市场前景广阔。
基础知识
多数据中心分布式训练
1. 概念与目标:数据中心分布式训练通过将训练任务分散到多个数据中心,以实现更高的计算效率和资源利用率。
2. 关键步骤:
数据分割:将训练数据划分为多个迷你批次,分配给不同的数据中心。
梯度计算:各中心独立计算梯度。
梯度同步:使用高效的通信机制(如all-reduce)同步梯度,以确保模型参数一致。
3. 挑战与问题:
通信开销:随着芯片数量增加,通信延迟和带宽要求显著上升,影响整体训练效率。
延迟问题:不同地理位置的数据中心之间的延迟会显著降低训练速度。
滞后节点:性能不均衡的节点可能导致整体训练任务速度下降,影响模型收敛。
4. 解决方案:
异步训练:采用异步更新策略,减少对全局同步的依赖,提高效率。
优化通信协议:开发更高效的通信协议,降低延迟和数据交换成本。
动态资源调整:实时监测网络状态,动态调整资源分配以应对延迟和带宽波动。
5. 其他考虑:
扩展性:根据阿姆达尔定律,增加节点并不总能线性提升训练性能。
容错训练
1. 概念与目标:容错训练是指在分布式系统中,通过设计来应对硬件故障,使得即使部分计算单元(如GPU)发生故障,整体训练过程仍可持续进行,避免从检查点重启,减少资源闲置。
2. 关键步骤:
故障检测:实时监控计算单元状态,及时识别故障节点。
资源分配:在故障发生时,将计算任务动态重分配到可用的GPU上。
状态恢复:在容错条件下,保持模型训练状态,不影响整体训练进度。
3. 挑战与问题:
边缘案例覆盖不足:现有开源库(如TorchX)未能处理所有可能的故障情况,限制了应用场景。
网络故障影响:在大规模GPU集群中,网络故障会导致数据包重传,影响训练效率。
性能差异:不同硬件的性能差异(芯片抽奖效应)会影响容错机制的效果。
4. 解决方案:
开发全面的容错系统:借鉴谷歌的Borg和Pathways,构建覆盖更多故障场景的容错基础设施。
改进网络通信:优化数据传输机制,减少对顺序传输的严格要求,提高容错能力。
利用检查点技术:实现GPU进程状态和内存内容的检查点保存,支持更灵活的故障恢复。
5. 其他考虑:
高温烧机测试:在系统投入使用前进行充分的烧机测试,以筛除早期故障,提高系统稳定性。
静默数据损坏(SDC)检测:采用工具(如DCGMI)监控并识别SDC问题,以确保计算结果的准确性。
技术保密与开放:尽管容错训练方法日益重要,但相关技术的公开程度较低,可能影响行业发展与合作。
训练策略
1. 概念与目标:训练策略旨在优化分布式训练过程,通过减少全局同步次数和允许部分独立运行来克服阿姆达尔定律中的回报递减问题,适用于跨园区、多区域或跨大陆的训练场景。
2. 关键步骤:
层级化同步:根据延迟和带宽差异,设定不同层级的同步频率,以适应不同地理位置的GPU配置。
负载平衡:在不同园区间根据GPU数量和批量大小进行动态调整,确保训练过程中的负载均衡。
参数服务器机制:使用多层参数服务器架构,允许模型副本与多个服务器频繁交换数据,确保全局权重的及时更新和收敛。
3. 挑战与问题:
收敛性问题:异步更新可能导致收敛困难,需要优化算法以避免不稳定。
合并与更新:在大模型训练中,合并不同分支的更新可能造成额外工程复杂度,影响效率。
网络瓶颈:跨区域训练面临带宽和延迟的双重限制,可能影响整体训练速度。
4. 解决方案:
优化异步参数服务器:改进现有异步参数服务器模型,通过算法创新来解决更新和收敛问题。
强大分片器:利用谷歌的MegaScaler等工具来实现高效的跨园区训练和权重交换。
网络基础设施优化:推广高带宽、低延迟的网络技术,降低跨区域训练的带宽需求。
5. 其他考虑:
未来扩展性:预计未来模型规模可达100万亿参数,需提前布局相关基础设施。
光纤铺设成本:在跨区域训练中,需考虑光纤铺设的成本和许可问题,确保网络布局的可行性。
行业动态:对异步训练的回归可能要求重新评估现有训练策略和基础设施设计,以适应新的技术要求。
调制与复用技术
1. 概念与目标:调制与复用技术通过提高信号传输效率和带宽利用率,优化光纤通信,特别是在数据中心和电信网络中,以满足高速数据传输的需求。
2. 关键步骤:
调制方案选择:使用如PAM4、16-QAM和64-QAM等高级调制方案,增加每符号传输的比特数,提升传输速率。
密集波分复用(DWDM):将多个波长的光信号复合到一根光纤中,从而显著增加带宽。
相干光学技术应用:采用相干光源和数字信号处理器(DSP)实现复杂的调制方案,确保信号的准确性和稳定性。
3. 挑战与问题:
成本问题:高阶调制方案和相干光学设备(如可调谐激光器)成本高昂,限制了普及。
光纤质量限制:长距离传输受光纤本身的限制,需要高质量的光纤和设备以减少信号衰减。
信号干扰:非相干光源可能导致相位干扰,影响调制信号的恢复。
4. 解决方案:
优化相干光模块:采用硅光子技术降低成本,并逐步使用O波段激光器简化设计。
DWDM技术扩展:通过增加波长数量(如C波段和L波段)来提升带宽,适应不断增长的客户需求。
模块化设计:使用ZR/ZR+光模块实现直接插入网络端口,简化电信设备链。
5. 其他考虑:
行业趋势:随着AI和大数据需求增加,调制与复用技术的持续发展将成为数据中心互连和电信网络的关键。
未来预期:高阶调制和DWDM的结合有望在单对光纤上实现超过100Tbps的传输能力,推动更大规模的网络升级。
电信网络部署
1. 概念与目标:电信网络是用于数据传输的基础设施,旨在满足高带宽、高可靠性的通信需求,特别是支持数据中心互连与跨地域训练。目标是通过优化光纤资源配置和传输技术,实现大规模、高效的数据交换。
2. 关键步骤:
光纤铺设:在城市和主要基础设施旁铺设大量光纤对,通常预留闲置光纤以应对未来需求。
DWDM技术应用:通过密集波分复用将多个光信号合并到单一光纤中,显著提升带宽。
超大规模运营商自建网络:超大规模运营商通常选择直接与设备供应商合作,以满足其特定需求。
3. 挑战与问题:
成本控制:海底光缆部署成本高,主要集中在光纤对数量上,而陆地光缆的主要成本在于劳动力和设备。
资源稀缺:在某些城市地区,光纤资源可能受到限制,导致超大规模运营商不得不使用较少的光纤对。
技术复杂性:长途网络需要多种电信设备,增加了系统复杂性和占用空间。
4. 解决方案:
扩展光纤对的部署:超大规模运营商通常会选择提前铺设多于实际需求的光纤对,以减少后续的复杂电信部署。
模块化电信设备:使用模块化的机箱组合各类设备,如转发器、DWDM多路复用器和ROADM,以提升系统灵活性和可扩展性。
动态网络管理:通过ROADM实现光信号的动态调节与优化,提升网络性能和资源利用率。
5. 其他考虑:
市场趋势:非云客户的电信设备需求可能逐步复苏,促使设备供应商的市场前景改善。
技术进步:随着ZR/ZR+光模块在数据中心互连中的应用扩大,预计对电信设备和系统的支出将增加,推动行业向更高性能设备转型。
AI基础设施的未来,谷歌与微软在多数据中心训练中的竞争态势
吉瓦(GW)级集群、通信网络、长途光缆、分层与异步随机梯度下降(SGD)、分布式基础设施
随着规模定律(Scaling Laws)持续推动AI发展,基础设施建设需求激增。今年,顶尖AI模型训练集群已扩展至10万个GPU单元,预计2025年将达到30万个。然而,受制于建设周期、审批流程、法规限制和电力供应等现实因素,传统的单一数据中心大规模同步训练模式正逼近极限。
谷歌、OpenAI和Anthropic已着手将大规模模型训练扩展至多个数据中心园区。谷歌拥有全球最先进的计算系统,率先大规模应用机架级液冷架构和多数据中心训练等关键技术,这些技术如今才逐步被其他公司采纳。
Gemini 1 Ultra模型率先实现多数据中心训练。尽管谷歌在浮点运算能力(FLOPS)上领先,但在合成数据、强化学习(RL)和模型架构方面仍落后于OpenAI和Anthropic。即将发布的Gemini 2有望改变这一局面。更值得关注的是,谷歌预计2025年将具备在多个园区进行吉瓦级训练的能力,但其长期规划出人意料地比OpenAI和微软更为保守。
当大多数企业刚开始接触英伟达GB200架构的高密度液冷AI芯片时,谷歌已部署了数百万颗液冷TPU,总容量超过1吉瓦(GW)。这凸显了谷歌在基础设施方面的巨大优势。
谷歌展示的AI训练园区目前电力容量接近300兆瓦(MW),预计明年将增至500兆瓦。除规模庞大外,这些设施还具备极高的能源效率。设施采用巨型冷却塔和集中式水系统,通过水管连接三栋建筑,能散发近200兆瓦热量。借此系统,谷歌大部分时间无需使用冷水机组,实现了1.1的PUE(电源使用效率),这一数据来自2023年最新环境报告。
谷歌采用直接到芯片(Direct-to-Chip)的水冷方式,通过液-液热交换器将机架热量转移至中央设施水系统。这种高效能源系统与英伟达GB200的液-液部署极为相似。
相比之下,微软目前最大的数据训练集群尚未采用液冷技术。每栋建筑的IT容量比谷歌低约35%,尽管总建筑面积(GFA)相当。公开数据显示,微软的PUE为1.223,但这一计算对空冷系统有利,因为未能准确计量服务器内部风扇功耗。以H100空冷服务器为例,风扇功耗超过服务器功率的15%,而液冷DLC服务器仅不足5%。
因此,微软每瓦供给芯片的功率需额外消耗约45%用于服务器风扇、电力冷却和其他非IT负载,而谷歌仅需额外15%左右。考虑到TPU的更高效率,微软的整体情况不容乐观。
此外,为在亚利桑那州等沙漠地区实现较高能效,微软需大量水资源。其水使用效率(WUE)达2.24升/千瓦时,远高于行业平均的0.49和谷歌略高于1的水平。这一高水耗引发负面关注,微软被要求在未来园区采用空冷冷水机组,虽可降低耗水,但会进一步提高PUE,拉大与谷歌的能效差距。
综上所述,根据现有数据中心设计,谷歌拥有更高效的基础设施,且能更快扩展兆瓦级容量。由于单栋建筑容量高出50%以上,谷歌每瓦IT负载所需公用电力相对较少。
谷歌的AI训练基础设施
谷歌在基础设施建设方面独树一帜。其单个数据中心设计已超越微软、亚马逊和Meta,但这仅是冰山一角。过去十余年,谷歌一直在构建大规模园区。爱荷华州Council Bluffs园区就是典型案例,虽历史悠久,但西部区域IT容量接近300兆瓦。尽管大部分容量用于传统工作负载,我们推测下方建筑可能部署了大量TPU。东部扩展区采用最新数据中心设计,进一步增强AI训练能力。
谷歌最大的AI数据中心彼此毗邻。公司在俄亥俄州和爱荷华州/内布拉斯加州拥有两个主要多数据中心区域。目前,Council Bluffs周边地区正大规模扩建,容量将超过现有规模两倍。除上图所示园区外,谷歌在该地区还有三个在建站点,均正升级高带宽光纤网络。
在方圆15英里内,谷歌在Council Bluffs、奥马哈和爱荷华州Papillon设有三个站点,另一个位于50英里外的内布拉斯加州林肯市。图中Papillon园区为奥马哈和Council Bluffs地区增加了超250兆瓦容量。结合上述园区,2023年谷歌在该地区总容量将超500兆瓦,大部分分配给TPU。
其他两个站点规模尚未达此水平,但正快速扩张。四个园区合计,预计2026年将形成吉瓦级AI训练集群。50英里外的林肯数据中心将成为谷歌最大单体站点。
谷歌庞大的TPU部署不止于此。另一个即将建设的吉瓦级集群位于俄亥俄州哥伦布地区,采用类似发展模式。预计2025年底,三个园区总容量将达1吉瓦。
New Albany集群将成为谷歌最大数据中心之一,已部署TPU v4、v5和v6。
谷歌在俄亥俄州和爱荷华州/内布拉斯加州的集中区域可进一步互联,支持单一模型的多吉瓦训练。我们的数据中心模型详细记录了逾5,000个数据中心的历史和预测电力数据,涵盖AI实验室、超大规模云厂商、次世代云及企业集群的建设状况。后续报告将深入探讨多数据中心训练的软件栈及相关方法。
微软与OpenAI的基础设施反击策略
微软和OpenAI深知自身在基础设施方面的短期劣势,因此启动了一项雄心勃勃的计划,试图在基础设施建设上赶超谷歌。他们正努力在谷歌的强项领域——水冷多数据中心训练集群上与之一较高下。
微软和OpenAI正在建设接近吉瓦级的超高密度液冷数据中心园区。同时,他们还与Oracle、Crusoe、CoreWeave、QTS、Compass等公司合作,力争在AI训练和推理总容量上超越谷歌。
部分园区建成后,规模将超过谷歌目前任何单一园区。实际上,微软在威斯康星州的园区规模将超过谷歌在俄亥俄州所有站点的总和,但建设周期较长。
然而,OpenAI和微软的野心远不止于此。他们计划将多个超大规模园区互联,实施覆盖全美的大规模分布式训练。他们将率先建立一个多吉瓦级的计算系统。与供应链伙伴携手,他们正在进行史上最宏大的基础设施建设。
本报告后续将详细介绍微软和OpenAI的基础设施建设情况。在此之前,我们将首先探讨多园区的同步和异步训练方法、滞后节点、容错机制、隐性数据损坏以及多数据中心训练面临的各种挑战。
接下来,我们将解析数据中心间如何通过光纤通信网络实现互联,包括相关技术和设备。
最后,我们将分析电信供应链,并讨论这轮AI基础设施建设中的关键受益者,以及我们认为哪些公司将在其中占据优势。
多数据中心分布式训练
大型语言模型(LLM)通常采用同步训练方式。训练数据被划分为若干小型迷你批次,由不同GPU组上的模型副本处理。每个迷你批次处理后,各副本计算梯度,然后在每批次结束时同步。
这种同步通常通过all-reduce等集体通信操作完成,汇总所有副本的梯度。汇总后,梯度被平均化并用于同时更新模型参数。这确保所有数据副本保持一致的参数集,保证模型稳定收敛。由于同步过程要求所有设备在下一步前等待彼此完成,因此确保没有设备在模型状态上超前或落后。
尽管同步梯度下降提供稳定收敛,但也带来巨大挑战,特别是单一训练任务中芯片数量超10万时,通信开销显著增加。同步特性意味着对延迟有严格要求,且必须有足够大带宽连接所有芯片,因为数据交换往往以巨量数据流形式发生。
当尝试使用多区域GPU处理同一训练任务时,区域间延迟增加。即使光纤中以208,188公里/秒速度传播,美国东西海岸往返时间(RTT)也需43.2毫秒。各类电信设备还引入额外延迟。这对标准同步训练是显著挑战。
根据阿姆达尔定律(Amdahl's law),当工作负载中存在大量同步操作时,增加芯片带来的加速效果迅速递减。随芯片数量增加,程序运行中需同步的部分比例不变,会达到理论极限,即使GPU数量翻倍,总吞吐量增加也不超1%。
除理论扩展极限外,同步梯度下降实际应用还面临滞后节点等挑战。某芯片比其他慢10%时,会导致整个训练任务也慢10%。图示中,从步骤7500到19000,字节跳动的MFU(机器浮点利用率)逐渐下降,因越来越多芯片速度略有下降,整个任务逐渐受制于滞后节点。
识别并移除滞后节点后,字节跳动从检查点重启训练任务,恢复正常MFU水平。可见MFU从40%降至30%,减少25%。拥有100万GPU时,25%MFU下降相当于25万GPU闲置,约合超100亿美元IT资本支出。
容错训练(Fault Tolerant Training)
容错训练是分布式系统的关键环节。当数百万计算、存储和内存元件同时运行时,故障不可避免,甚至可能出现"芯片抽奖"(Silicon Lottery)导致的性能差异。系统设计旨在应对这些问题。然而,机器学习训练作为全球最大规模的计算问题,却采用了相反策略。
所有芯片必须完美运行,因为10万GPU中任一故障都将导致全部GPU从检查点重启,造成大量闲置。容错训练允许在单GPU故障时,仅少量GPU受影响,大多数可继续运行,无需从模型权重检查点重启。LLAMA 3.1等开源模型已因此消耗大量成本和时间。
英伟达InfiniBand网络存在类似潜在缺陷,要求每个数据包按完全相同顺序传输。任何偏差或失败都需重新传输数据。10万GPU集群报告指出,单是网络故障影响就可以以分钟计。
主要开源库TorchX(前身TorchElastic)实现了容错训练,但存在显著缺点,如无法覆盖所有边缘故障情况,不支持三维并行。这导致大型AI实验室不得不自行开发容错训练系统。
谷歌作为容错基础设施领先者,通过Borg和Pathways实现最佳容错训练。这些库涵盖最多边缘案例,体现谷歌垂直整合优势:自行设计训练芯片、构建服务器、编写基础设施代码并进行模型训练。这种高度集成有助于快速应对并解决根本性问题。
总体而言,容错能力是扩展10万+GPU集群至单一工作负载的关键。英伟达在AI系统可靠性上远落后于谷歌,这也解释了容错能力在英伟达职位描述中频繁出现的原因。
设计冗余和容错机制,包括冗余组件、接口和错误校正码(ECC),以最大化系统可用性。评估并选择适当的技术和组件,以优化可靠性、可用性和可维护性,同时考虑平均故障间隔时间(MTBF)、平均修复时间(MTTR)和总拥有成本(TCO)等因素。
在CPU领域,容错基础设施通常被认为是一个已解决的问题。例如,谷歌内部的数据库Spanner支撑着所有谷歌的生产服务,包括YouTube、Gmail和Stadia(愿其安息),并能够在全球范围内进行分布式扩展,同时在存储服务器和NVMe磁盘故障方面具备容错能力。在谷歌的数据中心,每小时都有数百个NVMe磁盘发生故障,但对最终用户和内部而言,Spanner的性能和可用性始终保持不变。
另一个关于传统CPU工作负载容错性的例子是MapReduce。MapReduce是一种建模方式,用户可以通过处理数据样本来“映射”数据,并将多个数据样本“归约”为一个聚合值。例如,统计一篇论文中有多少个字母“W”是一个非常适合MapReduce的理论工作负载:对每个单词进行映射,映射将输出每个数据样本中“W”的数量,而“归约”则会聚合所有样本中的“W”数量。MapReduce可以通过检测哪些CPU工作节点出现故障,并在其他CPU工作节点上重新执行失败的映射和归约任务来实现容错。
Jeff Dean、Sanjay Ghemawat等谷歌世界级专家开发了大量CPU领域容错研究和系统。随机器学习训练规模扩大和容错要求提高,谷歌在构建可靠、稳健系统方面的专长将成为竞争优势。
GPU故障分布呈浴盆曲线,多发生于集群生命周期早期和末期。这解释了投入使用前广泛烧机测试的必要性。部分AI新兴云厂商为最大化使用寿命,未充分烧机测试,导致用户体验极差。
相反,超大规模云计算公司和大型AI实验室在高温和快速温度波动下长时间烧机测试,确保早期故障过去,系统进入随机故障阶段。但需在充分烧机时间和避免过度消耗GPU与光收发器寿命间平衡。
磨损故障多发生于设备生命周期末期,原因常为组件在高强度使用中经历快速中高温波动。光收发器尤其易受热循环损害。
CPU领域,物理主机错误率高时,通常将虚拟机(VM)迁移至另一主机。超大规模厂商甚至实现无缝迁移,用户无感知。这通常通过后台复制内存页面实现,应用程序短暂减速时,VM迅速切换至正常运行的第二个物理主机。
Linux主流软件包CRIU用于主要容器引擎,支持物理主机间容器和应用迁移,甚至可冻结整个进程状态并存储为检查点。长期仅适用于CPU和AMD GPU,直到今年英伟达才开始支持。
从2024年起,英伟达GPU将支持CRIU检查点,实现物理主机间更顺畅迁移CPU进程状态、内存内容和GPU进程。
微软Singularity集群管理器论文描述了利用CRIU实现GPU虚拟机透明迁移。Singularity设计初衷即考虑全球GPU工作负载调度管理,已用于Phi-3训练(1024块H100 GPU)等多个模型。微软在此方面追赶谷歌Borg集群管理器,后者拥有高度垂直整合优势。
容错训练重要性致相关方法公开基本停止。OpenAI等公司向硬件行业反馈问题时措辞含糊,避免透露分布式系统具体技巧。这些技术较模型架构更重要,二者均可视为计算效率一部分。
静默数据损坏(SDC)是另一常见问题,导致计算机处理结果产生静默错误,用户或管理员无警报。难以解决因"静默"意味不可察觉。部分轻微,但可能导致输出变为NaN或梯度异常增大。Jeff Dean梯度范数图展示部分SDC可通过梯度范数突变识别,但部分无法检测。
部分梯度范数突变非硬件SDC引起,而是大批量数据或超参数调整不当所致。所有运营GPU集群公司定期遇SDC问题,但小型中型新兴云厂商常因资源受限难以快速识别修复。
DCGMI诊断工具可诊断英伟达GPU SDC等错误,能捕获相当部分常见SDC,但无法处理许多导致数值错误和性能问题的边缘案例。
测试不同新兴云厂商H100时,尽管DCGMI诊断级别4通过,但NVSwitch ALU未正常工作,导致NVLS NCCL算法性能下降,产生错误all-reduce结果。后续NCCL/RCCL集体通信文章将深入探讨这些基准测试结果。
相比之下,谷歌Pathways在识别解决SDC方面表现优异。高度垂直整合的基础设施和训练堆栈使其能轻松在大规模训练任务前后进行SDC检查。
异步训练曾广泛使用。2012年Jeff Dean《Distbelief》论文描述在大量CPU核上训练深度学习模型的异步和同步梯度下降技术。引入全局"参数服务器",广泛应用于生产环境训练谷歌自动补全、搜索和广告模型。
当时参数服务器式训练效果良好。然而,新模型架构收敛性问题使行业逐渐回归完全同步梯度下降。目前所有前沿模型如GPT-4、Claude、Gemini和Grok均使用同步梯度下降训练。随GPU数量持续增加,未来可能再次转向异步梯度下降。
训练策略
为克服阿姆达尔定律中添加芯片时回报递减问题,可减少全局同步次数,允许更多工作负载(半)独立运行。此法适合跨园区、多区域甚至跨大陆训练,因GPU间延迟和带宽存在层级差异。
园区内建筑间(小于1公里)延迟极低、带宽极高,可频繁同步。区域内(小于100公里)带宽仍大但延迟更高,需减少同步频率。各园区GPU数量可不同,易于负载平衡。如园区A有10万GPU,B有7.5万,B的批量大小可为A的75%左右,同步时按GPU数量加权平均。
这一原则可适用于多区域及跨大洲的情况。由于延迟较高,应降低同步频率。本质上,这是一种分层同步方法。
打个比方,我们通常与近邻朋友会面频繁,与同一海岸其他城市的朋友会面较少,而与其他大洲城市的朋友会面更为罕见。
分层同步随机梯度下降(SGD)还有一个优势,即可减轻"掉队者"的影响。大多数"掉队者"仅在少数步骤中表现异常,但很快恢复正常。因此,同步频率越低,"掉队者"干扰同步过程的可能性就越小。由于每次迭代无需全局同步,掉队者的影响不再那么显著。分层同步SGD将成为未来多数据中心训练中的一项普遍创新。
另一前景方法是重用Jeff Dean 2012年DistBelief论文中异步参数服务器。模型副本处理自身数据批次,定期与参数服务器交换数据更新全局权重,类似git版本控制。简单实现可能引发收敛问题,但OpenAI有能力通过优化算法创新解决更新问题。
MetaAI的Branch-Train-Merge论文描述类似思路:从现有大语言模型分支,在数据子集上训练,再合并回主分支。此经验可能整合入OpenAI多园区训练技术。但对GPT-3 175B或GPT-4 1.8T等模型,合并问题未完全解决,需更多工程资源管理合并和更新,确保训练收敛。
拓展为层级架构需设置多层参数服务器,模型副本不仅与最近服务器交换数据,服务器间也交换。最低层单个模型副本与最近参数服务器频繁更新,确保本地快速收敛同步。
本地参数服务器分组至更高层,每层汇总优化下层更新再向上传递。大量GPU情况下,参数服务器可能需以FP32格式保存主权重,类似英伟达FP8训练服务器。主权重FP32存储避免多GPU累积溢出,实际计算可能用FP8甚至更低精度如MX6。
谷歌目前用强大分片器MegaScaler实现多园区训练,可在园区内多节点和区域内多园区间同步训练,为扩展单一训练任务芯片数提供稳定性可靠性优势。
然而,行业回归异步训练可能使MegaScaler成为谷歌瓶颈。基于同步训练原则的MegaScaler增加异步功能可能需大规模重构或重新开发。Pathways设计考虑异步数据流,但当前生产案例都基于全同步SGD训练。谷歌有能力重新设计此软件栈。
跨区域数据中心联网主要受带宽和延迟限制。长远看延迟将成更大瓶颈,因光速限制信号传播速度。跨区域铺设光纤主要成本在许可和开挖,非光纤本身。降低带宽需求策略仍至关重要。
未来多园区、多区域训练集群上模型规模可达100万亿参数量级。区域内可用区间带宽可望扩展至5Pbps,区域间合理估计为1Pbps。如此高带宽下,园区间交换权重不再是主要瓶颈,400TB权重(每参数4字节)传输仅需0.64秒。
英伟达MetroX Infiniband交换机用于40公里内网络连接,但AI实验室未用,仅少数非AI HPC集群在10公里内跨园区使用。每机箱仅2个100Gbps端口,40公里内以太网解决方案生态更成熟。即使广泛使用Infiniband的微软,数据中心间也用以太网。
从Gb到Tb:调制与复用技术的演进
当前数据中心内部网络通常为每个终端设备(如GPU)提供高达400Gbps的光纤连接速度。预计明年,英伟达将通过升级其Connect-X8网络接口卡,将这一速度提升至800Gbps,以满足AI应用的需求。
相比之下,电信网络通常需要在少量光纤上汇聚一个设施内多个设备和服务器的通信需求,并以更高速度传输。尽管数据通信中的800Gbps光模块通常在每对光纤上只能传输100Gbps(如DR8格式),需要多对独立光纤,但在电信应用中,单对单模光纤已能实现20Tbps至40Tbps的传输速度,适用于海底光缆以及众多陆地和城域网络部署。
更大带宽主要通过以下方式实现:
采用更高阶调制方案,在给定波长上传输更多比特。
使用密集波分复用(DWDM)技术,将多个波长的光信号复合到一根光纤上。
在调制方面,数据通信通常采用基于VCSEL和EML的光模块,这些模块能实现PAM4调制。PAM4是一种强度调制方案(即强度调制直接检测—IMDD光学器件),通过使用四个不同电平进行信号传输,每个符号编码两个比特。
提高速度可通过两种方式:提高符号传输速率(以千兆波特Gbd为单位),或增加每个符号的比特数。例如,400G SR8光模块以26.6 Gbd的速率传输符号,通过PAM4实现每符号2比特,在每对光纤上传输50Gbps。将8对光纤组合到一个连接器中,总传输速率达400Gbps。要达到800Gbps,可将符号速率提高到53.1 Gbd,同时仍在8条信道上使用PAM4。然而,提高符号速率通常比采用更高阶调制方案更具挑战性。
16阶正交振幅调制(16-QAM)是广泛应用于ZR/ZR+光模块和电信中的高阶调制方案。它不仅对信号波的四种不同幅度进行编码,还使用两组相位相差90度的载波波,每组载波波有四种不同幅度,总共16种可能的符号,每个符号传输4比特。通过引入双极化,即使用水平和垂直极化的两组载波波,进一步扩展至256种可能的符号,传输8比特。大多数400ZR/ZR+和800ZR/ZR+光模块支持双极化16-QAM(DP-16QAM),而运行在高质量光纤上的专用电信系统(具有更大规格尺寸)则可支持双极化64-QAM(DP-64QAM),实现每符号12比特的传输。
实现基于不同相位的调制方案需要使用相干光学技术。相干光在实现相位调制方案时至关重要,因为非相干光源会导致信号出现不一致的干扰,无法恢复相位调制信号。
相干光学系统需要使用相干数字信号处理器(DSP)处理高阶调制方案,并配备可调谐激光器和调制器。400ZR光模块通常使用硅光子技术以降低成本。由于可调谐激光器价格昂贵,业界正尝试使用成本较低的O波段激光器来实现简化的相干光模块。
ZR/ZR+光模块是日益流行的光收发器类型,采用相干光学技术,专为数据中心互连设计,能显著提高每对光纤的带宽,并实现120公里到500公里的更长传输距离。它们通常采用OSFP或QSFP-DD规格尺寸,与数据通信应用中常见的规格相同,可直接插入同一网络交换机使用。
传统电信系统也可用于数据中心互连,但需要更复杂的电信设备链,占用更多数据中心物理空间。而ZR/ZR+可插拔模块可直接插入网络端口,两端直接连接,绕过了多个电信设备。
更高阶的调制方案显著提高了每对光纤的带宽,例如与使用PAM4的IMDD光模块相比,双极化16-QAM可将带宽提高8倍。然而,长距离传输仍受限于光纤本身,因此可通过密集波分复用(DWDM)进一步增加每对光纤的带宽。DWDM将多个光波长合并到一对光纤中传输。例如,在C波段(1530nm至1565nm)和L波段(1565nm至1625nm)可各合并76个波长到同一光纤中。
如果每个波长传输800Gbps,该系统将能在单对光纤上实现高达121.6Tbps的传输。海底光缆通常最大化利用波长数量,部分部署可能使用少于16个波长,但也有采用96个波长的部署,当前典型部署目标是在单对光纤上实现20至60Tbps的传输能力。
许多部署初期仅激活C波段的少数波长,随客户需求增长逐步激活更多C波段波长,最终扩展到L波段,从而大幅提升现有光纤的传输速度。
超大规模运营商的电信网络部署
美国大多数城市拥有充足的光纤资源,可满足AI数据中心互连所需的巨大带宽需求。海底光缆部署通常仅包含8至12对光纤,因成本与光纤对数量成正比。相比之下,陆地光缆成本主要集中在劳动力、设备及使用权上,因此公司在城市地区铺设光缆时往往会部署数百甚至数千对光纤。
跨海训练的难度显著高于陆地训练。
典型的光纤业务模式通常预留相当数量的闲置光纤对,以应对未来需求。不仅城市,任何主要公路、输电线路、铁路或基础设施旁通常都有光缆铺设。在基础设施建设项目中,由于现场已有挖掘设备,增加光纤铺设几乎不需额外成本。
超大规模运营商倾向于自建网络,而非与电信服务商合作,他们直接与设备供应商和建筑公司合作,以满足长途、城市和数据中心互连需求。
数据中心互连通常通过铺设大量光纤对连接相距不超50公里的两个数据中心。超大规模运营商可将ZR光模块插入两个远程数据中心的网络交换机,调节至不同波长,然后通过无源多路复用器(DWDM链路)将多达64个光模块组合到一对光纤上。使用400ZR时,每对光纤可实现25.5 Tbps的传输速度。另一种方式是将每个ZR光模块插入独立的光纤对。
更复杂的电信系统也可实现DWDM,能将更多ZR光学信号多路复用到更少的光纤对上,并支持点对点之外的网络连接。但这需要额外机架空间放置电信设备,包括路由器、光路交换器(ROADM)和DWDM多路复用器/解复用器。
由于主要成本在于挖掘光纤沟渠,大多数超大规模运营商发现部署超出实际需求的光纤对更为简单,这样可节省数据中心内部空间,避免复杂的电信部署。仅在光纤容量受限时,他们才会考虑在短距离内部署广泛的电信系统,这种情况在美国以外地区较为常见,超大规模运营商可能被迫在光纤资源稀缺的城市中仅使用2至4对光纤。
然而,在长途网络中,超大规模运营商需使用与数据通信产品截然不同的全面电信产品系列。典型长途网络至少需要几种基本系统,包括转发器、DWDM多路复用器/解复用器、路由器、放大器、增益均衡器和再生站点,多数情况还包括ROADM(可重配置光添加/丢弃多路复用器)和WSS(波长选择开关)。
转发器在电信领域功能类似光模块,但价格更高,工作功率水平更高。一侧与实际电信网络(线路侧)进行传输/接收,另一侧提供多种组合的端口连接客户设备(客户侧)。例如,一个转发器可能在线路侧提供800Gbps,客户侧提供4个200Gbps的光电端口,但客户可选择多种端口容量和电气/光学组合。客户侧可连接到数据中心内的路由器或交换机,线路侧将连接到多路复用器,通过DWDM组合多个转发器的信号,并可能通过ROADM实现更复杂的网络拓扑。
DWDM通过多路复用器和解复用器(mux/demux)工作,将来自每个转发器的略有不同波长的光信号组合到一对光纤中。每个转发器都可调节,选择特定波长的光进行多路复用。使用ROADM时,转发器通常连接到无色多路复用器/解复用器,然后连接到波长选择开关(WSS),使ROADM能动态调节转发器至特定波长,优化网络目标。
光放大器用于抵消光信号在传输过程中的衰减,通常每60到100公里放置一次,可直接放大光信号而无需转换为电信号。每三台放大器后需一个增益均衡器,确保不同波长的光信号在不同速度下传输时能够均衡,避免错误。在跨越数千公里的超长距离部署中,需要再生,将光信号转换为电信号,重新整形和定时,并通过另一组转发器重新传输。
对于连接多个节点且有多个中转点用于添加或接收流量的网络,需使用ROADM。它可在网络特定位置光学添加或丢弃特定波长的光信号,无需将信号转换为电信号进行处理或路由。ROADM还具有控制平面,可主动发现和监测网络状态,了解光纤网络上的空闲通道、信号噪声比、保留波长,并能控制转发器,将线路侧调节至适当波长。
这些不同组件通常组合在一个模块化机箱中。
Ciena、Nokia、Infinera和Cisco是全球主要的电信系统和设备供应商,而Lumentum、Coherent、Fabrinet和Marvell为这些主要供应商提供各种子系统和主动组件。目前,组件厂商的优势主要体现在ZR/ZR+光学用于数据中心互连上,但随着超大规模运营商和其他运营商需要在相邻数据中心之外进行训练,他们可能会大幅增加对高平均售价电信设备和系统的支出。
非云客户对电信设备的需求似乎已触底,可能很快进入周期复苏阶段,从而提升各种电信供应商的前景。
OpenAI与微软的谷歌超越策略
如前所述,微软的标准设计在密度方面较谷歌存在劣势。尽管两家公司的数据中心建筑面积相当,但微软设施的兆瓦容量较低。
谷歌数据中心的PUE(电源使用效率)更低,意味着更多电力可用于IT设备,同时减少网络设备、CPU和散热系统的能耗。因此,尽管微软也有建设大型园区的经验,但其建设周期通常更长,整体规模也小于谷歌。
微软最大的AI训练基地位于凤凰城,该地点是其最大规模部署之一,未来将扩展至10座建筑。利用已获批的多个场地,微软计划自建24个数据中心。
为进一步扩容,微软在凤凰城周边积极租赁,这将显著扩大其在该地区的占地。然而,并非所有这些数据中心都将用于AI训练,部分可能服务于其他用途。
为在规模上超越谷歌,微软和OpenAI不能依赖微软既有的数据中心设计。他们正通过自建大幅提高新设施的密度,尤其是在密尔沃基,并与Compass、QTS、Crusoe、Oracle、CoreWeave等合作伙伴在全美范围内扩建。在密尔沃基和亚特兰大(通过QTS),微软正在建设全球最强大的单体建筑,采用全液冷设计,专用于下一代AI硬件。
位于威斯康星州的自建超级园区建成后,将成为微软或谷歌所有设施中最大的单一数据中心园区。Meta也在积极推进雄心勃勃的单一站点计划。
这仅是部分场地的概览,但其扩张速度惊人。微软和OpenAI庞大基础设施的另一部分位于德克萨斯州,通过与Oracle+Crusoe以及CoreWeave+Core Scientific在阿比林和丹顿的合作进一步扩大规模。
值得注意的是,在打造AI集群的过程中,微软还涉足了加密货币挖矿领域。CoreWeave租用了现有的Core Scientific加密矿场设施,而Oracle则与Crusoe合作使用其园区,Crusoe此前也深耕于加密货币领域。比特币矿工习惯于高密度、高功率的数据中心,许多矿场签署了大规模的电力供应合同。
Core Scientific的10-K文件显示,其在多个站点拥有1.2GW的合同容量。与全新建设数据中心相比,重新利用加密货币矿场的时间表要短得多,这使得这些设施在AI集群建设中的转型更加迅速和高效。
该公司正大规模转向AI的数据中心托管,并与CoreWeave达成了一项大规模协议,涉及382MW的IT电力供应,且交付时间较短。CoreWeave将采购GB200 GPU,并将其租赁给微软供OpenAI使用。我们认为,最关键的地点将是位于德克萨斯州丹顿的矿场。
与X.AI的现场发电机类似,这个数据中心也拥有充足的电力基础设施。该站点拥有一个225MW的天然气发电厂,位于所有加密矿场的中心位置。加密矿场将被拆除并进行大规模改造,替换为符合数据中心级别的电力和冷却系统。但与PUE高于1.3的自建数据中心相比,这个站点的效率仍然较低。
另一个重要的园区由Crusoe在德克萨斯州阿比林开发。Crusoe因其在北达科他州和怀俄明州的创新性伴生气挖矿站点而闻名,正在建设一个吉瓦级数据中心,并将其首期部分租赁给Oracle,后者将其装配为GPU和网络设备,然后再租给OpenAI。通过实时低分辨率卫星图像,我们可以观察到该园区的快速扩张。我们拥有精确详细的季度历史和预测电力数据,涵盖超过5,000个数据中心。这些数据包括AI实验室、超大规模云提供商、新兴云平台和企业的数据中心集群建设状况。
在美国其他地区,还有
共有 0 条评论