Dari SFT ke RL lalu ke penskalaan waktu pengujian, tiga tahap kemajuan seperti membangun balok susun yang mendorong model kecil 30B meraih medali emas IMO, jalurnya sangat jelas dan menakutkan

Lihat Asli
MeNews
Model inferensi pasca pelatihan SU-01 mencapai kinerja medali emas dalam soal tingkat olimpiade
AIMPACT mengusulkan metode sistematis untuk mengubah model inferensi pasca-pelatihan menjadi pemecah masalah tingkat Olimpiade, terdiri dari tiga langkah: melakukan penyetelan halus terawasi dengan kursus kebingungan balik untuk menanamkan pencarian bukti dan pemeriksaan diri; kemudian diperluas melalui dua tahap pembelajaran penguatan; saat pengujian dilakukan peningkatan skala. Diterapkan pada backbone 30B-A3B, menggunakan sekitar 340.000 trajektori sub-8K untuk penyetelan halus terawasi, kemudian 200 langkah RL, menghasilkan SU-01. Model ini mampu melakukan inferensi stabil terhadap masalah sulit, dengan trajektori lebih dari 100.000 token, mencapai tingkat medali emas di kompetisi seperti IMO/USAMO/IPhO, dan menunjukkan kemampuan generalisasi penalaran ilmiah di luar bidang matematika/fisika.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan