AIMPACT mengusulkan metode sistematis untuk mengubah model inferensi pasca-pelatihan menjadi pemecah masalah tingkat Olimpiade, terdiri dari tiga langkah: melakukan penyetelan halus terawasi dengan kursus kebingungan balik untuk menanamkan pencarian bukti dan pemeriksaan diri; kemudian diperluas melalui dua tahap pembelajaran penguatan; saat pengujian, dilakukan peningkatan skala. Diterapkan pada backbone 30B-A3B, menggunakan sekitar 340.000 trajektori sub-8K untuk penyetelan halus terawasi, kemudian 200 langkah RL, menghasilkan SU-01. Model ini mampu melakukan inferensi stabil terhadap masalah sulit, trajektori melebihi 100.000 token, mencapai tingkat medali emas di kompetisi seperti IMO/USAMO/IPhO, dan menunjukkan kemampuan generalisasi penalaran ilmiah di luar bidang matematika/fisika.

MeNews

2026-05-26 22:37:22

Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 16 Mei (UTC+8), sebuah makalah baru mengusulkan metode sistematis untuk mengubah model inferensi pasca pelatihan menjadi pemecah masalah tingkat Olimpiade, dan melatih model SU-01 berdasarkan metode tersebut. Metode ini mencakup tiga langkah: pertama, melakukan penyetelan halus pengawasan menggunakan kurikulum kebingungan terbalik untuk menanamkan pencarian bukti yang ketat dan perilaku pemeriksaan diri; kemudian, memperluas perilaku ini melalui pembelajaran penguatan dua tahap (dari pembelajaran penguatan berbasis hadiah yang dapat diverifikasi ke pembelajaran penguatan tingkat bukti); terakhir, meningkatkan kinerja melalui penskalaan saat pengujian. Tim penelitian menerapkan metode ini pada model tulang punggung 30B-A3B, menggunakan sekitar 340.000 trajektori sub-8K token untuk penyetelan halus pengawasan, kemudian melakukan 200 langkah pembelajaran penguatan, menghasilkan SU-01. Model ini mampu melakukan inferensi stabil pada masalah yang sulit, dengan panjang trajektori lebih dari 100.000 token, mencapai tingkat medali emas dalam kompetisi seperti IMO 2025/USAMO 2026 dan IPhO 2024/2025, serta menunjukkan kemampuan generalisasi di bidang inferensi ilmiah di luar matematika dan fisika. (Sumber: InFoQ)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

8 Suka

Hadiah
8
8
Posting ulang
Bagikan

Komentar

Tambahkan komentar

SucculentCross-Section

· 4jam yang lalu

IMO tingkat emas? Tunggu saja reproduksi sumber terbuka dulu

Lihat AsliBalas0

DeepBlueStakingStone

· 5jam yang lalu

Jumlah data jejak sebanyak 340.000 sebenarnya tidak terlalu mengesankan, tetapi penyaringan kualitas diperkirakan sangat memakan waktu

Lihat AsliBalas0

BlackVelvetKeychain

· 10jam yang lalu

Kursus kebingungan terbalik ini cukup menarik, telah mengkodekan pengalaman manusia dalam mengerjakan soal.

Lihat AsliBalas0

OrdersPlacedBeforeTheStorm

· 10jam yang lalu

Mekanisme pemeriksaan diri akan jauh lebih mudah jika dapat divisualisasikan, proses debugging dan penalaran akan lebih nyaman

Lihat AsliBalas0

VinesCoiledIntoGeometricShapes

· 10jam yang lalu

Kompetisi fisika juga mencakup ini, sekarang peserta kompetisi fisika punya latihan dengan AI.

Lihat AsliBalas0

BridgeAnxiety

· 10jam yang lalu

A3B adalah arsitektur apa, ada yang paham bisa jelaskan lebih detail?

Lihat AsliBalas0

GateUser-ecf4759e

· 11jam yang lalu

Pemilihan tingkat jejak 8K ini memiliki pertimbangan, terlalu panjang akan menyebabkan propagasi gradien meledak.

Lihat AsliBalas0

FudAlsoNeedsAnImage

· 11jam yang lalu

Kalimat terakhir 'penalaran ilmiah yang digeneralisasi' membuat saya teringat pada paradoks Polanyi—kita tahu lebih banyak daripada yang kita ungkapkan, apakah AI sekarang mampu menyentuh bagian intuisi yang tidak diungkapkan tersebut?

Lihat AsliBalas0

Topik Trending
Lihat Lebih Banyak
#
StockTradingChallengeUpTo17000U
16.23M Popularitas
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
820.02K Popularitas
#
IsraelStrikesIranBTCPlunges
49.57K Popularitas
#
GatePredictionMarketAddsSmartMoneyTracking
13.21M Popularitas
#
MicronMarketCapBreaks1Trillion
38.29K Popularitas

Disematkan

peta situs

Model inferensi pasca pelatihan SU-01 mencapai kinerja medali emas dalam soal tingkat olimpiade

Topik Trending

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Disematkan