OpenAI自研超算网络协议MRC开源:10万GPU只需两层交换机,故障恢复从秒级降到微秒

币界网消息,OpenAI联合AMD、Broadcom、Intel、微软和英伟达开发的MRC(Multipath Reliable Connection)网络协议已开源,支持10万GPU仅需两层交换机,故障恢复时间从秒级降至微秒级。该协议已内置于最新的800GB/s网卡,并通过OCP(Open Compute Project)发布,现已部署在OpenAI所有最大规模的英伟达GB200超算上,包括与Oracle合建的得克萨斯州Abilene集群和微软的Fairwater超算。MRC的核心改变是将单次传输拆分到数百条路径上同时发送,避免了传统超算网络中因传输延迟导致GPU空转的问题。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论