OpenAI 联手五大芯片巨头发布 MRC 协议:AI 超大规模训练的”网络瓶颈”终于有解了

by JeariCk 1 min read
芯片巨头AMD和Intel

搞过分布式训练的朋友都知道,当你花了几百万买来GPU集群,结果30%以上的算力都浪费在等数据上——这事儿有多难受。2026年5月6日,OpenAI联合AMD、博通、英特尔、微软、英伟达五大科技巨头,正式发布了**多路径可靠连接(MRC)协议**。这不是又一个PPT协议,而是已经在OpenAI所有训练超级计算机上跑起来了的真家伙。

芯片巨头AMD和Intel
芯片巨头AMD和Intel

问题有多严重?你可能低估了通信瓶颈

先说说这个问题的规模。2026年第一季度的数据显示,全球AI算力市场规模已达1200亿美元,其中分布式训练集群占比超过60%。也就是说,大部分钱都花在了”把很多GPU连起来一起干活”这件事上。

但问题来了——GPU越来越多,通信却成了瓶颈。

想象一下:你有一万个工人(GPU)在流水线上干活,结果物料传送带(网络)只有一条道,大家干完活都在等下一批料。麦肯锡2025年的报告明确指出,当训练集群节点数超过1000个时,通信延迟导致的算力利用率损失可达35%以上。这不是小数目,相当于你每买三块GPU,就有一块在空转。

传统的三层甚至四层网络架构,加上BGP这类复杂动态路由协议,在数百个节点时尚能应付,但面对十万级GPU集群时,根本就是小马拉大车。一句话总结:**网络已经成为AI算力扩张的头号天花板**。

MRC 凭什么能解决?三招击中要害

MRC(Multipath Reliable Connection)全称多路径可靠连接,基于RoCE标准扩展,结合SRv6技术,通过开放计算项目(OCP)向全行业开源。说白了,就是让数据不再走单车道,而是学会”多线程运输”。

第一招:拆端口,降层级

传统方案要连13万块GPU,至少需要三层甚至四层交换机架构。MRC的做法很直接——把单个800Gb/s接口拆成多个小链路,配合多平面网络设计,**只需要两层交换机就能连接约13.1万块GPU**。层级少一层,延迟就少一段,成本也降一截。

第二招:自适应数据包喷淋,告别单路径拥堵

MRC引入了自适应数据包喷淋技术。这名字听起来很唬人,其实不难理解——以前的数据传输就像快递只走一条路,堵了就堵了;现在是把一个包裹拆成无数小件,走几百条路同时送。即使部分链路拥堵或故障,其他路径也能顶上。

更关键的是,接收端能依据内存地址信息正确重组乱序到达的数据包,保证数据完整性。

第三招:干掉BGP,用SRv6源路由把故障恢复从秒级降到微秒级

传统网络依赖BGP这类动态路由协议,一旦链路出问题,路由收敛可能花好几秒——在AI训练中,这几秒意味着成千上万个GPU在空转等待。

MRC用SRv6源路由替代了这一机制。发送端直接指定数据包路径,交换机只需要按静态配置表转发,**故障恢复时间从秒级缩短到微秒级**。实测数据显示,即使发生链路抖动或交换机重启,训练任务也能不受干扰地自动绕过故障。

每家巨头分的什么活?

这次的合作不是简单的站台背书,六家公司在MRC生态中各司其职:

– **AMD**:优化Radeon Instinct GPU与网络接口的兼容性,让自家GPU原生支持MRC
– **博通**:在新一代网络交换芯片中集成MRC协议处理单元,减少转发延迟
– **英特尔**:适配Xeon CPU与相关内存的通信链路,提升节点内部交换效率
– **微软**:把MRC集成到Azure AI超级计算集群中,提供开箱即用的分布式训练环境
– **英伟达**:在DGX OS中内置MRC驱动,确保GPU集群性能充分释放
– **OpenAI**:牵头并负责MRC的实际部署验证

目前MRC已全面部署于OpenAI所有用于训练前沿模型的大型超级计算机中,包括位于美国得克萨斯州阿比林的Oracle云基础设施站点以及微软的Fairwater超级计算机集群。

大模型训练的机房
大模型训练的机房

现实意义:10万亿参数模型的训练时间能缩短30%

OpenAI给出的测算数据相当亮眼:采用MRC后,10万亿参数模型的训练时间可缩短30%,集群规模能扩展到10000节点以上而不损失算力利用率。

做个不太准确的类比——如果之前训练一个千亿参数模型需要30天,MRC可能帮你节省出整整9天的等待时间。对于OpenAI这类争分夺秒追赶AGI的实验室来说,这种时间优势可能就是一句话:**对手还在等数据,模型已经迭代了两轮**。

下一步:全球AI超级工厂的”地基”

微软已经提出了”AI超级工厂”的概念——把跨区域的超大规模数据中心连接起来,形成一张全球AI计算网。MRC正是这张网的基础通信协议候选者。

当然,竞争对手也没闲着。谷歌DeepMind在2026年4月宣布研发”Global Fabric Link”分布式通信技术,主要解决跨区域集群的低延迟通信;阿里达摩院也在测试自研的”星链通信协议”,预计2027年初实现商业化。

从这个角度看,MRC的发布标志着一个新趋势:**AI军备竞赛已经从单点GPU性能,转向了如何把大量GPU高效连接起来的系统工程**。谁的网络更稳更快,谁的模型就能迭代得更快——这不是口号,是切切实实的技术硬仗。

对于普通开发者来说,好消息是MRC通过OCP开源,意味着未来你也能用上这些基础设施级别的优化。AI的门槛,正在从”有没有GPU”变成”会不会用集群”。


参考资料:

OpenAI正式发布MRC开放协议

IT之家报道:OpenAI携手英伟达等5大巨头发布MRC协议

📖 推荐阅读

感兴趣的话,看看同一个话题的相关文章:

AI发展历程:从图灵测试到ChatGPT,横跨百年的智能革命史

2026年AI智能体应用加速落地:从概念到价值创造的关键拐点

AI幻觉的致命伤:当大模型开始一本正经地胡说八道

2026年国内主流大模型终极对决:技术特点、应用场景与选型指南

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注