Model inferensi pasca pelatihan SU-01 mencapai kinerja medali emas dalam soal tingkat olimpiade

robot
Pembuatan abstrak sedang berlangsung
AIMPACT Pesan, 16 Mei (UTC+8), sebuah makalah baru mengusulkan metode sistematis untuk mengubah model inferensi pasca pelatihan menjadi pemecah masalah tingkat Olimpiade, dan berdasarkan metode tersebut melatih model SU-01. Metode ini mencakup tiga langkah: pertama, melakukan penyetelan halus pengawasan menggunakan kurikulum kebingungan terbalik untuk menanamkan pencarian pembuktian yang ketat dan perilaku pemeriksaan diri; kemudian, memperluas perilaku ini melalui pembelajaran penguatan dua tahap (dari pembelajaran penguatan berbasis hadiah yang dapat diverifikasi ke pembelajaran penguatan tingkat pembuktian); terakhir, meningkatkan kinerja melalui penskalaan saat pengujian. Tim penelitian menerapkan metode ini pada model inti 30B-A3B, menggunakan sekitar 340.000 trajektori sub-8K token untuk penyetelan halus pengawasan, kemudian melakukan 200 langkah pembelajaran penguatan, menghasilkan SU-01. Model ini mampu melakukan inferensi stabil pada masalah yang sulit, dengan panjang trajektori lebih dari 100.000 token, mencapai tingkat medali emas dalam kompetisi seperti IMO 2025/USAMO 2026 dan IPhO 2024/2025, serta menunjukkan kemampuan generalisasi di bidang inferensi ilmiah di luar matematika dan fisika. (Sumber: InFoQ)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 11
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
FloatingMirrorSphere
· 39menit yang lalu
Output stabil tanpa crash hingga 100.000 token, lapisan infrastruktur juga cukup kuat
Lihat AsliBalas0
GateUser-46c777d0
· 3jam yang lalu
34 juta jejak dimasukkan, RL hanya berjalan 200 langkah, efisiensi data lebih tinggi dari yang dibayangkan
Lihat AsliBalas0
CandlewickKid
· 4jam yang lalu
Apakah Olimpiade Fisika juga bisa digeneralisasi? Ingin melihat bagaimana kinerjanya dalam soal desain eksperimen
Lihat AsliBalas0
RetroRadioWaves
· 4jam yang lalu
Apakah peningkatan penskalaan saat pengujian merujuk pada penghitungan penskalaan saat pengujian?
Lihat AsliBalas0
ReflectiveChainShadow
· 4jam yang lalu
Detail jalur 8K ini menarik, apakah itu memecah bukti panjang menjadi bagian kecil untuk diberikan?
Lihat AsliBalas0
ByteSizedAlpha
· 4jam yang lalu
Menggeneralisasi lintas bidang klaim ini sangat besar, tunggu contoh konkret terlebih dahulu
Lihat AsliBalas0
StainedGlassSolarArray
· 4jam yang lalu
Kemampuan pemeriksaan diri mungkin adalah yang paling penting, jauh lebih penting daripada sekadar menghasilkan jawaban.
Lihat AsliBalas0
StillHereAfterTheRugPull
· 4jam yang lalu
Penamaan 30B-A3B, apakah A3B adalah parameter aktivasi?
Lihat AsliBalas0
GateUser-52241ed6
· 4jam yang lalu
IMO tingkat emas... Apakah kompetisi di masa depan akan dibagi menjadi kategori manusia dan AI?
Lihat AsliBalas0
GateUser-e72657f0
· 4jam yang lalu
Desain kursus kebingungan terbalik ini sangat brilian, membiarkan model belajar untuk meragukan diri sendiri terlebih dahulu
Lihat AsliBalas0
Lihat Lebih Banyak