Protocolo de red de supercomputación desarrollado por OpenAI, MRC, abierto: 100,000 GPU con solo dos capas de conmutadores, la recuperación de fallos pasa de segundos a microsegundos

La noticia de CoinWorld, el protocolo de red MRC (Conexión Confiable de Múltiples Caminos) desarrollado por OpenAI en colaboración con AMD, Broadcom, Intel, Microsoft y Nvidia, ya está de código abierto, y soporta 100,000 GPU con solo dos niveles de conmutadores, reduciendo el tiempo de recuperación de fallos de segundos a microsegundos. El protocolo ya está integrado en la tarjeta de red más reciente de 800GB/s y se ha publicado a través del OCP (Open Compute Project), y ahora se ha implementado en todos los supercomputadores Nvidia GB200 de mayor escala de OpenAI, incluyendo el clúster de Abilene en Texas construido en colaboración con Oracle y el supercomputador Fairwater de Microsoft. La principal innovación de MRC es dividir cada transmisión en cientos de rutas simultáneas, evitando el problema de inactividad de la GPU causado por la latencia en las redes tradicionales de supercomputadoras.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado