OpenAI 联手五大芯片巨头发布 MRC 协议：AI 超大规模训练的"网络瓶颈"终于有解了话题

搞过分布式训练的朋友都知道，当你花了几百万买来GPU集群，结果30%以上的算力都浪费在等数据上——这事儿有多难受。2026年5月6日，OpenAI联合AMD、博通、英特尔、微软、英伟达五大科技巨头，正式发布了**多路径可靠连接（MRC）协议**。这不是又一个PPT协议，而是已经在OpenAI所有训练超级计算机上跑起来了的真家伙。

问题有多严重？你可能低估了通信瓶颈

先说说这个问题的规模。2026年第一季度的数据显示，全球AI算力市场规模已达1200亿美元，其中分布式训练集群占比超过60%。也就是说，大部分钱都花在了”把很多GPU连起来一起干活”这件事上。

但问题来了——GPU越来越多，通信却成了瓶颈。

想象一下：你有一万个工人（GPU）在流水线上干活，结果物料传送带（网络）只有一条道，大家干完活都在等下一批料。麦肯锡2025年的报告明确指出，当训练集群节点数超过1000个时，通信延迟导致的算力利用率损失可达35%以上。这不是小数目，相当于你每买三块GPU，就有一块在空转。

传统的三层甚至四层网络架构，加上BGP这类复杂动态路由协议，在数百个节点时尚能应付，但面对十万级GPU集群时，根本就是小马拉大车。一句话总结：**网络已经成为AI算力扩张的头号天花板**。

MRC 凭什么能解决？三招击中要害

MRC（Multipath Reliable Connection）全称多路径可靠连接，基于RoCE标准扩展，结合SRv6技术，通过开放计算项目（OCP）向全行业开源。说白了，就是让数据不再走单车道，而是学会”多线程运输”。

第一招：拆端口，降层级

传统方案要连13万块GPU，至少需要三层甚至四层交换机架构。MRC的做法很直接——把单个800Gb/s接口拆成多个小链路，配合多平面网络设计，**只需要两层交换机就能连接约13.1万块GPU**。层级少一层，延迟就少一段，成本也降一截。

第二招：自适应数据包喷淋，告别单路径拥堵

MRC引入了自适应数据包喷淋技术。这名字听起来很唬人，其实不难理解——以前的数据传输就像快递只走一条路，堵了就堵了；现在是把一个包裹拆成无数小件，走几百条路同时送。即使部分链路拥堵或故障，其他路径也能顶上。

更关键的是，接收端能依据内存地址信息正确重组乱序到达的数据包，保证数据完整性。

第三招：干掉BGP，用SRv6源路由把故障恢复从秒级降到微秒级

传统网络依赖BGP这类动态路由协议，一旦链路出问题，路由收敛可能花好几秒——在AI训练中，这几秒意味着成千上万个GPU在空转等待。

MRC用SRv6源路由替代了这一机制。发送端直接指定数据包路径，交换机只需要按静态配置表转发，**故障恢复时间从秒级缩短到微秒级**。实测数据显示，即使发生链路抖动或交换机重启，训练任务也能不受干扰地自动绕过故障。

每家巨头分的什么活？

这次的合作不是简单的站台背书，六家公司在MRC生态中各司其职：

– **AMD**：优化Radeon Instinct GPU与网络接口的兼容性，让自家GPU原生支持MRC
– **博通**：在新一代网络交换芯片中集成MRC协议处理单元，减少转发延迟
– **英特尔**：适配Xeon CPU与相关内存的通信链路，提升节点内部交换效率
– **微软**：把MRC集成到Azure AI超级计算集群中，提供开箱即用的分布式训练环境
– **英伟达**：在DGX OS中内置MRC驱动，确保GPU集群性能充分释放
– **OpenAI**：牵头并负责MRC的实际部署验证

目前MRC已全面部署于OpenAI所有用于训练前沿模型的大型超级计算机中，包括位于美国得克萨斯州阿比林的Oracle云基础设施站点以及微软的Fairwater超级计算机集群。

现实意义：10万亿参数模型的训练时间能缩短30%

OpenAI给出的测算数据相当亮眼：采用MRC后，10万亿参数模型的训练时间可缩短30%，集群规模能扩展到10000节点以上而不损失算力利用率。

做个不太准确的类比——如果之前训练一个千亿参数模型需要30天，MRC可能帮你节省出整整9天的等待时间。对于OpenAI这类争分夺秒追赶AGI的实验室来说，这种时间优势可能就是一句话：**对手还在等数据，模型已经迭代了两轮**。

下一步：全球AI超级工厂的”地基”

微软已经提出了”AI超级工厂”的概念——把跨区域的超大规模数据中心连接起来，形成一张全球AI计算网。MRC正是这张网的基础通信协议候选者。

当然，竞争对手也没闲着。谷歌DeepMind在2026年4月宣布研发”Global Fabric Link”分布式通信技术，主要解决跨区域集群的低延迟通信；阿里达摩院也在测试自研的”星链通信协议”，预计2027年初实现商业化。

从这个角度看，MRC的发布标志着一个新趋势：**AI军备竞赛已经从单点GPU性能，转向了如何把大量GPU高效连接起来的系统工程**。谁的网络更稳更快，谁的模型就能迭代得更快——这不是口号，是切切实实的技术硬仗。

对于普通开发者来说，好消息是MRC通过OCP开源，意味着未来你也能用上这些基础设施级别的优化。AI的门槛，正在从”有没有GPU”变成”会不会用集群”。

参考资料：

OpenAI正式发布MRC开放协议

IT之家报道：OpenAI携手英伟达等5大巨头发布MRC协议

📖 推荐阅读

感兴趣的话，看看同一个话题的相关文章：

AI发展历程：从图灵测试到ChatGPT，横跨百年的智能革命史

2026年AI智能体应用加速落地：从概念到价值创造的关键拐点

AI幻觉的致命伤：当大模型开始一本正经地胡说八道

2026年国内主流大模型终极对决：技术特点、应用场景与选型指南

OpenAI 联手五大芯片巨头发布 MRC 协议：AI 超大规模训练的”网络瓶颈”终于有解了

问题有多严重？你可能低估了通信瓶颈

MRC 凭什么能解决？三招击中要害

第一招：拆端口，降层级

第二招：自适应数据包喷淋，告别单路径拥堵

第三招：干掉BGP，用SRv6源路由把故障恢复从秒级降到微秒级

每家巨头分的什么活？

现实意义：10万亿参数模型的训练时间能缩短30%

下一步：全球AI超级工厂的”地基”

📖 推荐阅读

发表回复取消回复

问题有多严重？你可能低估了通信瓶颈

MRC 凭什么能解决？三招击中要害

第一招：拆端口，降层级

第二招：自适应数据包喷淋，告别单路径拥堵

第三招：干掉BGP，用SRv6源路由把故障恢复从秒级降到微秒级

每家巨头分的什么活？

现实意义：10万亿参数模型的训练时间能缩短30%

下一步：全球AI超级工厂的”地基”

📖 推荐阅读

发表回复 取消回复

发表回复取消回复