Biarkan AI mengubah kode pelatihan sendiri, Rekursif menyegarkan catatan optimalisasi tiga algoritma

robot
Pembuatan abstrak sedang berlangsung
ME AI Pesan, menurut pemantauan Beating Monitoring, perusahaan startup AI Recursive mengumumkan hasil eksperimen awal dari sistem penelitian ilmiah mereka. Sistem ini mampu secara otomatis mengajukan ide, menulis kode, menjalankan eksperimen, dan melakukan verifikasi, dengan melampaui hasil terbaik yang dipublikasikan dalam tiga tolok ukur: pelatihan dengan anggaran tetap, pelatihan NanoGPT dengan kecepatan tinggi, dan optimisasi kernel GPU. Eksperimen menunjukkan bahwa dalam tugas yang memiliki tujuan jelas dan umpan balik cepat, sistem sudah mampu menemukan ruang optimisasi yang terlewatkan oleh manusia. Dalam pelatihan NanoChat Autoresearch selama 5 menit yang dibatasi, sistem menurunkan kerugian validasi BPB menjadi 0,9109, mempercepat waktu pelatihan untuk mencapai kerugian yang sama sekitar 23% (peningkatan kecepatan 1,3 kali). Perubahan utama adalah meningkatkan memori konteks pendek, dengan meng-hash kombinasi token biner dan trinary ke tabel embedding tetap, lalu menggabungkan nilai perhatian melalui gerbang yang dapat dipelajari untuk langsung memanfaatkan informasi lokal dengan biaya sangat rendah. Dalam Speedrun NanoGPT yang telah dioptimalkan oleh komunitas selama lebih dari dua tahun, waktu yang dibutuhkan untuk mencapai kerugian tertentu dikurangi dari 79,7 detik menjadi 77,5 detik. Metode optimisasi termasuk mendorong perhitungan maju FP8 ke jalur perhatian untuk meningkatkan throughput, serta memodifikasi kernel MLP yang digabungkan, hanya menyimpan aktivasi ReLU kuadrat dan menghitung ulang variabel tengah saat backpropagation untuk mengurangi pembacaan dan penulisan memori GPU. Dalam tolok ukur optimisasi kernel GPU SOL-ExecBench, sistem meningkatkan skor rata-rata SOL (rasio mencapai batas teori) dari 0,699 menjadi 0,754 pada Nvidia B200, mengurangi jarak dari batas fisik sebesar 18%. Solusi yang dihasilkan termasuk mengintegrasikan skala GRN ke bobot lapisan linier berikutnya, mengemas skor dan indeks routing ahli menjadi pasangan kunci-nilai untuk reduksi warp internal, serta menggunakan instruksi PTX tingkat rendah dalam kernel NVFP4 MoE untuk mengemas FP4, dan menyimpan FP32 selama perhitungan tengah untuk mengurangi akumulasi kesalahan. Untuk mencegah AI menyalahgunakan celah untuk meningkatkan skor secara curang, sistem memperkenalkan audit kebenaran berlapis untuk menyaring percepatan yang tidak valid. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan