Model inferensi pasca pelatihan SU-01 mencapai kinerja medali emas dalam soal tingkat olimpiade

robot
Pembuatan abstrak sedang berlangsung
AIMPACT Pesan, 16 Mei (UTC+8), sebuah makalah baru mengusulkan metode sistematis untuk mengubah model inferensi pasca pelatihan menjadi pemecah masalah tingkat Olimpiade, dan berdasarkan metode tersebut melatih model SU-01. Metode ini mencakup tiga langkah: pertama, melakukan penyetelan halus pengawasan menggunakan kurikulum kebingungan terbalik untuk menanamkan pencarian pembuktian yang ketat dan perilaku pemeriksaan diri; kemudian, memperluas perilaku ini melalui pembelajaran penguatan dua tahap (dari pembelajaran penguatan berbasis hadiah yang dapat diverifikasi ke pembelajaran penguatan tingkat pembuktian); terakhir, meningkatkan kinerja melalui penskalaan saat pengujian. Tim penelitian menerapkan metode ini pada model inti 30B-A3B, menggunakan sekitar 340.000 jejak sub-8K token untuk penyetelan halus pengawasan, kemudian melakukan 200 langkah pembelajaran penguatan, menghasilkan SU-01. Model ini mampu melakukan inferensi stabil pada masalah yang sulit, dengan panjang jejak lebih dari 100.000 token, mencapai tingkat medali emas dalam kompetisi seperti IMO 2025/USAMO 2026 dan IPhO 2024/2025, serta menunjukkan kemampuan generalisasi di bidang inferensi ilmiah di luar matematika dan fisika. (Sumber: InFoQ)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 11
  • 2
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
SeaSaltMintCandy
· 8jam yang lalu
Apakah nama SU-01 memiliki arti, atau hanya sembarangan dipilih saja?
Lihat AsliBalas0
StainedGlassSolarArray
· 8jam yang lalu
Setelah pelatihan ulang, ide ini akan segera diikuti oleh laboratorium lain.
Lihat AsliBalas0
GateUser-d2929483
· 9jam yang lalu
Jika pekerjaan ini benar-benar terjadi, data soal kompetisi akan mengalami kenaikan harga
Lihat AsliBalas0
StopRaisingGasFees.
· 9jam yang lalu
Apakah RL 200 langkah sudah bisa konvergen? Atau hanya angka yang dipublikasikan saja?
Lihat AsliBalas0
MetalFrameBookPageCross
· 9jam yang lalu
Apa yang dimaksud dengan perluasan RL dua tahap secara spesifik, adakah rincian lebih detailnya?
Lihat AsliBalas0
GateUser-7a050ee5
· 9jam yang lalu
Sementara menunggu sumber terbuka atau laporan teknis yang rinci, saat ini tandai dulu
Lihat AsliBalas0
GateUser-f4b3df7a
· 9jam yang lalu
Bagaimana mekanisme pemeriksaan diri diimplementasikan, apakah ada tujuan pelatihan khusus?
Lihat AsliBalas0
GateUser-e3701961
· 9jam yang lalu
Apakah peningkatan skala saat pengujian termasuk self-consistency atau teknik lain?
Lihat AsliBalas0
LittleBitcoinInTheReflection
· 9jam yang lalu
30B-A3B ukuran ini bisa melakukan seperti ini, efisiensi jauh lebih tinggi daripada GPT-4, kan
Lihat AsliBalas0
HalfLifeHodler
· 9jam yang lalu
Kemampuan generalisasi lintas domain ini yang paling patut diperhatikan, jangan sampai lagi overfitting terhadap benchmark
Lihat AsliBalas0
Lihat Lebih Banyak