Model inferensi pasca pelatihan SU-01 mencapai kinerja medali emas dalam soal tingkat olimpiade

robot
Pembuatan abstrak sedang berlangsung
AIMPACT Pesan, 16 Mei (UTC+8), sebuah makalah baru mengusulkan metode sistematis untuk mengubah model inferensi pasca pelatihan menjadi pemecah masalah tingkat Olimpiade, dan berdasarkan metode tersebut melatih model SU-01. Metode ini mencakup tiga langkah: pertama, melakukan penyetelan halus pengawasan menggunakan kurikulum kebingungan terbalik untuk menanamkan pencarian pembuktian yang ketat dan perilaku pemeriksaan diri; kemudian, memperluas perilaku ini melalui pembelajaran penguatan dua tahap (dari pembelajaran penguatan berbasis hadiah yang dapat diverifikasi ke pembelajaran penguatan tingkat pembuktian); terakhir, meningkatkan kinerja melalui penskalaan saat pengujian. Tim penelitian menerapkan metode ini pada model inti 30B-A3B, menggunakan sekitar 340.000 trajektori sub-8K token untuk penyetelan halus pengawasan, kemudian melakukan 200 langkah pembelajaran penguatan, menghasilkan SU-01. Model ini mampu melakukan inferensi stabil pada masalah yang sulit, dengan panjang trajektori lebih dari 100.000 token, mencapai tingkat medali emas dalam kompetisi seperti IMO 2025/USAMO 2026 dan IPhO 2024/2025, serta menunjukkan kemampuan generalisasi di bidang inferensi ilmiah di luar matematika dan fisika. (Sumber: InFoQ)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 6
  • 2
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
NoSleepBridge
· 4jam yang lalu
Setelah pelatihan ulang, apakah metodologi ini bisa diadopsi oleh bidang lain?
Lihat AsliBalas0
ExitLiquidityStan
· 4jam yang lalu
Mekanisme pemeriksaan diri adalah kunci, banyak model yang kekurangan ini
Lihat AsliBalas0
NftsOutsideTheTidalLine
· 4jam yang lalu
34 juta jejak dimasukkan, RL hanya 200 langkah, efisiensinya cukup keren
Lihat AsliBalas0
PineNeedlesAndColdWind
· 4jam yang lalu
Akhirnya ada yang menganggap pencarian bukti sebagai kemampuan inti, arah yang benar
Lihat AsliBalas0
MirrorPetals
· 4jam yang lalu
Apakah kompetisi fisika juga bisa diikuti? Kemampuan generalisasi ini memang benar-benar tidak terduga
Lihat AsliBalas0
SudoSoul
· 4jam yang lalu
Level medali IMO... Apakah kompetisi di masa depan akan dibagi menjadi kategori manusia dan AI?
Lihat AsliBalas0