AIMPACT mengusulkan metode sistematis untuk mengubah model inferensi pasca-pelatihan menjadi pemecah masalah tingkat Olimpiade, terdiri dari tiga langkah: melakukan penyetelan halus terawasi dengan kursus kebingungan balik untuk menanamkan pencarian bukti dan pemeriksaan diri; kemudian diperluas melalui dua tahap pembelajaran penguatan; saat pengujian dilakukan peningkatan skala. Diterapkan pada backbone 30B-A3B, menggunakan sekitar 340.000 trajektori sub-8K untuk penyetelan halus terawasi, kemudian 200 langkah RL, menghasilkan SU-01. Model ini mampu melakukan inferensi stabil terhadap masalah sulit, trajektori melebihi 100.000 token, mencapai tingkat medali emas di kompetisi seperti IMO/USAMO/IPhO, dan menunjukkan kemampuan generalisasi penalaran ilmiah di luar bidang matematika/fisika.

MeNews

2026-05-27 04:17:37

Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 16 Mei (UTC+8), sebuah makalah baru mengusulkan metode sistematis untuk mengubah model inferensi pasca pelatihan menjadi pemecah masalah tingkat Olimpiade, dan berdasarkan metode tersebut melatih model SU-01. Metode ini mencakup tiga langkah: pertama, melakukan penyetelan halus pengawasan menggunakan kurikulum kebingungan terbalik untuk menanamkan pencarian pembuktian yang ketat dan perilaku pemeriksaan diri; kemudian, memperluas perilaku ini melalui pembelajaran penguatan dua tahap (dari pembelajaran penguatan berbasis hadiah yang dapat diverifikasi ke pembelajaran penguatan tingkat pembuktian); terakhir, meningkatkan kinerja melalui penskalaan saat pengujian. Tim penelitian menerapkan metode ini pada model inti 30B-A3B, menggunakan sekitar 340.000 trajektori sub-8K token untuk penyetelan halus pengawasan, kemudian melakukan 200 langkah pembelajaran penguatan, menghasilkan SU-01. Model ini mampu melakukan inferensi stabil pada masalah yang sulit, dengan panjang trajektori lebih dari 100.000 token, mencapai tingkat medali emas dalam kompetisi seperti IMO 2025/USAMO 2026 dan IPhO 2024/2025, serta menunjukkan kemampuan generalisasi di bidang inferensi ilmiah di luar matematika dan fisika. (Sumber: InFoQ)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

8 Suka

Hadiah
8
11
Posting ulang
Bagikan

Komentar

Tambahkan komentar

FloatingMirrorSphere

· 39menit yang lalu

Output stabil tanpa crash hingga 100.000 token, lapisan infrastruktur juga cukup kuat

Lihat AsliBalas0

GateUser-46c777d0

· 3jam yang lalu

34 juta jejak dimasukkan, RL hanya berjalan 200 langkah, efisiensi data lebih tinggi dari yang dibayangkan

Lihat AsliBalas0

CandlewickKid

· 4jam yang lalu

Apakah Olimpiade Fisika juga bisa digeneralisasi? Ingin melihat bagaimana kinerjanya dalam soal desain eksperimen

Lihat AsliBalas0

RetroRadioWaves

· 4jam yang lalu

Apakah peningkatan penskalaan saat pengujian merujuk pada penghitungan penskalaan saat pengujian?

Lihat AsliBalas0

ReflectiveChainShadow

· 4jam yang lalu

Detail jalur 8K ini menarik, apakah itu memecah bukti panjang menjadi bagian kecil untuk diberikan?

Lihat AsliBalas0

ByteSizedAlpha

· 4jam yang lalu

Menggeneralisasi lintas bidang klaim ini sangat besar, tunggu contoh konkret terlebih dahulu

Lihat AsliBalas0

StainedGlassSolarArray

· 4jam yang lalu

Kemampuan pemeriksaan diri mungkin adalah yang paling penting, jauh lebih penting daripada sekadar menghasilkan jawaban.

Lihat AsliBalas0

StillHereAfterTheRugPull

· 4jam yang lalu

Penamaan 30B-A3B, apakah A3B adalah parameter aktivasi?

Lihat AsliBalas0

GateUser-52241ed6

· 4jam yang lalu

IMO tingkat emas... Apakah kompetisi di masa depan akan dibagi menjadi kategori manusia dan AI?

Lihat AsliBalas0

GateUser-e72657f0

· 4jam yang lalu

Desain kursus kebingungan terbalik ini sangat brilian, membiarkan model belajar untuk meragukan diri sendiri terlebih dahulu

Lihat AsliBalas0

Lihat Lebih Banyak

Topik Trending
Lihat Lebih Banyak
#
StockTradingChallengeUpTo17000U
16.23M Popularitas
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
818.93K Popularitas
#
IsraelStrikesIranBTCPlunges
49.57K Popularitas
#
GatePredictionMarketAddsSmartMoneyTracking
13.77M Popularitas
#
MicronMarketCapBreaks1Trillion
37.7K Popularitas

Disematkan

peta situs

Model inferensi pasca pelatihan SU-01 mencapai kinerja medali emas dalam soal tingkat olimpiade

Topik Trending

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Disematkan