AIMPACT mengusulkan metode tiga langkah untuk membangun model inferensi pasca pelatihan menjadi pemecah masalah tingkat olimpiade: penyetelan mikro pelatihan dengan kebingungan terbalik, pembelajaran penguatan dua tahap, dan peningkatan ekstensi saat pengujian. Menggunakan 30B-A3B sebagai tulang punggung untuk melatih SU-01, dengan jejak lebih dari 100.000 token, mencapai tingkat medali emas di kompetisi seperti IMO/USAMO/IPhO, dan menunjukkan generalisasi penalaran ilmiah lintas bidang. Sumber: InFoQ

MeNews

2026-05-15 21:43:33

Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 16 Mei (UTC+8), sebuah makalah baru mengusulkan metode sistematis untuk mengubah model inferensi pasca pelatihan menjadi pemecah masalah tingkat Olimpiade, dan berdasarkan metode tersebut melatih model SU-01. Metode ini mencakup tiga langkah: pertama, melakukan penyetelan halus pengawasan menggunakan kurikulum kebingungan terbalik untuk menanamkan pencarian pembuktian yang ketat dan perilaku pemeriksaan diri; kemudian, memperluas perilaku ini melalui pembelajaran penguatan dua tahap (dari pembelajaran penguatan berbasis hadiah yang dapat diverifikasi ke pembelajaran penguatan tingkat pembuktian); terakhir, meningkatkan kinerja melalui penskalaan saat pengujian. Tim penelitian menerapkan metode ini pada model inti 30B-A3B, menggunakan sekitar 340.000 trajektori sub-8K token untuk penyetelan halus pengawasan, kemudian melakukan 200 langkah pembelajaran penguatan, menghasilkan SU-01. Model ini mampu melakukan inferensi stabil pada masalah yang sulit, dengan panjang trajektori lebih dari 100.000 token, mencapai tingkat medali emas dalam kompetisi seperti IMO 2025/USAMO 2026 dan IPhO 2024/2025, serta menunjukkan kemampuan generalisasi di bidang inferensi ilmiah di luar matematika dan fisika. (Sumber: InFoQ)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateSquareMayTradingShare
1.85M Popularitas
#
CLARITYActPassesSenateCommittee
3.39M Popularitas
#
IsraelStrikesIranBTCPlunges
46.92K Popularitas
#
#DailyPolymarketHotspot
956.81K Popularitas
#
BitcoinVShapedReversalBack
227.02M Popularitas

Disematkan

peta situs

Model inferensi pasca pelatihan SU-01 mencapai kinerja medali emas dalam soal tingkat olimpiade

Topik Trending

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Disematkan