Model inferensi pasca pelatihan SU-01 mencapai kinerja medali emas dalam soal tingkat olimpiade

robot
Pembuatan abstrak sedang berlangsung
AIMPACT Pesan, 16 Mei (UTC+8), sebuah makalah baru mengusulkan metode sistematis untuk mengubah model inferensi pasca pelatihan menjadi pemecah masalah tingkat Olimpiade, dan melatih model SU-01 berdasarkan metode tersebut. Metode ini mencakup tiga langkah: pertama, melakukan penyetelan halus pengawasan menggunakan kurikulum kebingungan terbalik untuk menanamkan pencarian bukti yang ketat dan perilaku pemeriksaan diri; kemudian, memperluas perilaku ini melalui pembelajaran penguatan dua tahap (dari pembelajaran penguatan berbasis hadiah yang dapat diverifikasi ke pembelajaran penguatan tingkat bukti); terakhir, meningkatkan kinerja melalui penskalaan saat pengujian. Tim penelitian menerapkan metode ini pada model tulang punggung 30B-A3B, menggunakan sekitar 340.000 trajektori sub-8K token untuk penyetelan halus pengawasan, kemudian melakukan 200 langkah pembelajaran penguatan, menghasilkan SU-01. Model ini mampu melakukan inferensi stabil pada masalah yang sulit, dengan panjang trajektori lebih dari 100.000 token, mencapai tingkat medali emas dalam kompetisi seperti IMO 2025/USAMO 2026 dan IPhO 2024/2025, serta menunjukkan kemampuan generalisasi di bidang inferensi ilmiah di luar matematika dan fisika. (Sumber: InFoQ)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 8
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
SucculentCross-Section
· 4jam yang lalu
IMO tingkat emas? Tunggu saja reproduksi sumber terbuka dulu
Lihat AsliBalas0
DeepBlueStakingStone
· 5jam yang lalu
Jumlah data jejak sebanyak 340.000 sebenarnya tidak terlalu mengesankan, tetapi penyaringan kualitas diperkirakan sangat memakan waktu
Lihat AsliBalas0
BlackVelvetKeychain
· 10jam yang lalu
Kursus kebingungan terbalik ini cukup menarik, telah mengkodekan pengalaman manusia dalam mengerjakan soal.
Lihat AsliBalas0
OrdersPlacedBeforeTheStorm
· 10jam yang lalu
Mekanisme pemeriksaan diri akan jauh lebih mudah jika dapat divisualisasikan, proses debugging dan penalaran akan lebih nyaman
Lihat AsliBalas0
VinesCoiledIntoGeometricShapes
· 10jam yang lalu
Kompetisi fisika juga mencakup ini, sekarang peserta kompetisi fisika punya latihan dengan AI.
Lihat AsliBalas0
BridgeAnxiety
· 10jam yang lalu
A3B adalah arsitektur apa, ada yang paham bisa jelaskan lebih detail?
Lihat AsliBalas0
GateUser-ecf4759e
· 11jam yang lalu
Pemilihan tingkat jejak 8K ini memiliki pertimbangan, terlalu panjang akan menyebabkan propagasi gradien meledak.
Lihat AsliBalas0
FudAlsoNeedsAnImage
· 11jam yang lalu
Kalimat terakhir 'penalaran ilmiah yang digeneralisasi' membuat saya teringat pada paradoks Polanyi—kita tahu lebih banyak daripada yang kita ungkapkan, apakah AI sekarang mampu menyentuh bagian intuisi yang tidak diungkapkan tersebut?
Lihat AsliBalas0