Menembus ambang pembelajaran penguatan model parameter triliunan: open-source prime-rl memungkinkan 28 server melatih 131k konteks

robot
Pembuatan abstrak sedang berlangsung
ME AI Pesan, menurut pemantauan Beating, Prime Intellect merilis kerangka pelatihan pembelajaran penguatan terdistribusi prime-rl versi 0.6.0, mengatasi ambang batas pelatihan RL untuk model campuran ahli dengan triliunan parameter MoE dalam tugas agen cerdas konteks panjang. Model besar mampu membaca teks panjang 256k tidaklah langka, tetapi dalam pelatihan pembelajaran penguatan, agar model dapat melakukan inferensi melalui trial-and-error secara mandiri, GPU harus menyimpan seluruh aktivasi tengah yang besar pada panjang 131k sepanjang waktu, sehingga konsumsi memori meningkat ratusan hingga ribuan kali lipat. Sebelumnya ini membutuhkan kluster besar yang terdiri dari ribuan GPU, tetapi prime-rl 0.6.0 hanya dengan 28 server H200 mampu menjalankan pelatihan RL konteks 131k dari GLM-5, dengan waktu per langkah dikontrol di bawah 5 menit. Untuk mengatasi masalah tugas trial-and-error yang memakan waktu panjang dan menghambat langkah global, seperti dalam pembuatan kode kompleks, kerangka ini memecahkan mekanisme sinkronisasi tradisional dengan mengadopsi arsitektur RL asinkron yang sepenuhnya terlepas. Pelatih latar belakang setelah menghitung bobot baru, tidak perlu menunggu selesai tugas trial-and-error yang sedang berlangsung, langsung mengirimkan pembaruan secara real-time selama model menghasilkan teks. Tugas yang telah didistribusikan tetap menggunakan strategi lama untuk menjaga kecepatan, sementara tugas baru disuntikkan cache KV dengan salt untuk secara paksa membangun ulang cache. Untuk mengatasi masalah ketidaksesuaian langkah antara pelatihan dan inferensi dalam pembaruan asinkron yang dapat menyebabkan kekacauan logika model, kerangka ini memperkenalkan teknologi routing replay R3, yang langsung memproses distribusi data ahli di tingkat dasar, menghindari latensi sistem akibat konversi data, dan mengurangi ketidakcocokan di kedua ujung hingga sepersepuluh, secara signifikan menstabilkan pelatihan asinkron. Dalam hal optimalisasi sumber daya dasar, kerangka ini secara teliti merancang solusi untuk mengatasi masalah memori GPU yang terlampau penuh oleh teks panjang. Pada sisi inferensi, digunakan arsitektur pemisahan baca dan tulis, mencegah model besar terjebak saat membaca banyak konteks sebelumnya yang dapat membekukan proses generasi teks selanjutnya; sekaligus berbagi pengetahuan ahli antar banyak GPU, dan memanfaatkan teknologi Mooncake untuk menggabungkan memori dan disk yang tidak terpakai dari beberapa server menjadi satu cache bersama. Dalam komputasi paralel teks panjang, khusus untuk mekanisme perhatian jarang DSA dari GLM-5, kerangka ini merancang skema paralel khusus yang memastikan model dapat melihat seluruh gambaran secara global, sekaligus mengurangi biaya komunikasi data antar lapisan GPU hanya sekali. Pada sisi pelatihan, menggabungkan DeepGEMM untuk merealisasikan pelatihan FP8 skala blok yang diusulkan oleh DeepSeek V3, sehingga pelatihan dan inferensi menggunakan presisi dan kernel komputasi yang sama, secara fundamental menghilangkan crash pelatihan akibat bias presisi. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan