OpenAI pimpin AMD, NVIDIA, Intel, Microsoft, dan raksasa Broadcom yang jarang berkolaborasi bersama menyelesaikan lapisan jaringan AI

robot
Pembuatan abstrak sedang berlangsung

Keuangan Emas Melaporkan, 7 Mei, menurut Kuaikeji, OpenAI hari ini secara resmi merilis protokol MRC (Koneksi Handal Multi-Jalur) melalui Proyek Komputasi Terbuka (OCP), untuk mengatasi hambatan komunikasi jaringan GPU dalam pelatihan AI skala besar. Protokol ini dikembangkan bersama oleh OpenAI, AMD, NVIDIA, Intel, Microsoft, dan Broadcom selama dua tahun, dan saat ini telah digunakan secara nyata dalam klaster superkomputer yang dilengkapi dengan NVIDIA GB200.
Masalah inti yang ingin diselesaikan oleh MRC adalah: saat melatih model AI skala besar, latensi transfer data tunggal cukup untuk menyebabkan gangguan seluruh proses pelatihan, dengan GPU secara kolektif menganggur menunggu, dan semakin besar skala klaster, semakin sering masalah latensi yang disebabkan oleh kemacetan jaringan, gangguan jalur, dan perangkat terjadi. Solusi MRC adalah memecah antarmuka jaringan 800Gb/s menjadi beberapa jalur yang lebih kecil, misalnya menghubungkan satu antarmuka ke 8 switch berbeda, membangun 8 jaringan paralel 100Gb/s, bukan bergantung pada satu jaringan 800Gb/s.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan