Protocolo de rede de supercomputação desenvolvido pela OpenAI, MRC, de código aberto: 100 mil GPUs requerem apenas dois níveis de switches, a recuperação de falhas passou de segundos para microssegundos

Notícias do CoinWorld, o protocolo de rede MRC (Multipath Reliable Connection), desenvolvido pela OpenAI em parceria com AMD, Broadcom, Intel, Microsoft e Nvidia, foi open source, suportando 100 mil GPUs com apenas dois níveis de switches, reduzindo o tempo de recuperação de falhas de segundos para microssegundos.
Este protocolo já está integrado na mais recente placa de rede de 800GB/s e foi lançado através do OCP (Open Compute Project), estando atualmente implantado em todos os supercomputadores Nvidia GB200 de grande escala da OpenAI, incluindo o cluster Abilene no Texas, construído em parceria com a Oracle, e o supercomputador Fairwater da Microsoft.
A mudança central do MRC é dividir uma única transmissão em várias centenas de caminhos simultâneos, evitando o problema de GPU ociosa causado pelo atraso na transmissão em redes tradicionais de supercomputadores.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar