AIMPACT mengusulkan metode sistematis untuk mengubah model inferensi pasca-pelatihan menjadi pemecah masalah tingkat Olimpiade, terdiri dari tiga langkah: melakukan penyetelan halus terawasi dengan kursus kebingungan balik untuk menanamkan pencarian bukti dan pemeriksaan diri; kemudian diperluas melalui dua tahap pembelajaran penguatan; saat pengujian, dilakukan peningkatan skala. Diterapkan pada backbone 30B-A3B, menggunakan sekitar 340.000 trajektori sub-8K untuk penyetelan halus terawasi, kemudian 200 langkah RL, menghasilkan SU-01. Model ini mampu melakukan inferensi stabil terhadap masalah sulit, dengan trajektori lebih dari 100.000 token, mencapai tingkat medali emas di kompetisi seperti IMO/USAMO/IPhO, dan menunjukkan kemampuan generalisasi penalaran ilmiah di luar bidang matematika/fisika.

MeNews

2026-05-27 00:46:07

Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 16 Mei (UTC+8), sebuah makalah baru mengusulkan metode sistematis untuk mengubah model inferensi pasca pelatihan menjadi pemecah masalah tingkat Olimpiade, dan berdasarkan metode tersebut melatih model SU-01. Metode ini mencakup tiga langkah: pertama, melakukan penyetelan halus pengawasan menggunakan kurikulum kebingungan terbalik untuk menanamkan pencarian pembuktian yang ketat dan perilaku pemeriksaan diri; kemudian, memperluas perilaku ini melalui pembelajaran penguatan dua tahap (dari pembelajaran penguatan berbasis hadiah yang dapat diverifikasi ke pembelajaran penguatan tingkat pembuktian); terakhir, meningkatkan kinerja melalui penskalaan saat pengujian. Tim penelitian menerapkan metode ini pada model inti 30B-A3B, menggunakan sekitar 340.000 jejak sub-8K token untuk penyetelan halus pengawasan, kemudian melakukan 200 langkah pembelajaran penguatan, menghasilkan SU-01. Model ini mampu melakukan inferensi stabil pada masalah yang sulit, dengan panjang jejak lebih dari 100.000 token, mencapai tingkat medali emas dalam kompetisi seperti IMO 2025/USAMO 2026 dan IPhO 2024/2025, serta menunjukkan kemampuan generalisasi di bidang inferensi ilmiah di luar matematika dan fisika. (Sumber: InFoQ)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

13 Suka

Hadiah
13
11
2
Bagikan

Komentar

Tambahkan komentar

SeaSaltMintCandy

· 8jam yang lalu

Apakah nama SU-01 memiliki arti, atau hanya sembarangan dipilih saja?

Lihat AsliBalas0

StainedGlassSolarArray

· 8jam yang lalu

Setelah pelatihan ulang, ide ini akan segera diikuti oleh laboratorium lain.

Lihat AsliBalas0

GateUser-d2929483

· 9jam yang lalu

Jika pekerjaan ini benar-benar terjadi, data soal kompetisi akan mengalami kenaikan harga

Lihat AsliBalas0

StopRaisingGasFees.

· 9jam yang lalu

Apakah RL 200 langkah sudah bisa konvergen? Atau hanya angka yang dipublikasikan saja?

Lihat AsliBalas0

MetalFrameBookPageCross

· 9jam yang lalu

Apa yang dimaksud dengan perluasan RL dua tahap secara spesifik, adakah rincian lebih detailnya?

Lihat AsliBalas0

GateUser-7a050ee5

· 9jam yang lalu

Sementara menunggu sumber terbuka atau laporan teknis yang rinci, saat ini tandai dulu

Lihat AsliBalas0

GateUser-f4b3df7a

· 9jam yang lalu

Bagaimana mekanisme pemeriksaan diri diimplementasikan, apakah ada tujuan pelatihan khusus?

Lihat AsliBalas0

GateUser-e3701961

· 9jam yang lalu

Apakah peningkatan skala saat pengujian termasuk self-consistency atau teknik lain?

Lihat AsliBalas0

LittleBitcoinInTheReflection

· 9jam yang lalu

30B-A3B ukuran ini bisa melakukan seperti ini, efisiensi jauh lebih tinggi daripada GPT-4, kan

Lihat AsliBalas0

HalfLifeHodler

· 9jam yang lalu

Kemampuan generalisasi lintas domain ini yang paling patut diperhatikan, jangan sampai lagi overfitting terhadap benchmark

Lihat AsliBalas0

Lihat Lebih Banyak

Topik Trending
Lihat Lebih Banyak
#
StockTradingChallengeUpTo17000U
16.23M Popularitas
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
820.36K Popularitas
#
IsraelStrikesIranBTCPlunges
49.57K Popularitas
#
GatePredictionMarketAddsSmartMoneyTracking
13.21M Popularitas
#
MicronMarketCapBreaks1Trillion
38.32K Popularitas

Disematkan

peta situs

Model inferensi pasca pelatihan SU-01 mencapai kinerja medali emas dalam soal tingkat olimpiade

Topik Trending

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Disematkan