AIMPACT mengusulkan metode sistematis untuk mengubah model inferensi pasca-pelatihan menjadi pemecah masalah tingkat Olimpiade, terdiri dari tiga langkah: melakukan penyetelan halus terawasi dengan kursus kebingungan balik untuk menanamkan pencarian bukti dan pemeriksaan diri; kemudian diperluas melalui dua tahap pembelajaran penguatan; saat pengujian, dilakukan peningkatan skala. Diterapkan pada backbone 30B-A3B, menggunakan sekitar 340.000 trajektori sub-8K untuk penyetelan halus terawasi, kemudian 200 langkah RL, menghasilkan SU-01. Model ini mampu melakukan inferensi stabil terhadap masalah sulit, trajektori melebihi 100.000 token, mencapai tingkat medali emas di kompetisi seperti IMO/USAMO/IPhO, dan menunjukkan kemampuan generalisasi penalaran ilmiah di luar bidang matematika/fisika.

MeNews

2026-05-26 18:44:37

Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 16 Mei (UTC+8), sebuah makalah baru mengusulkan metode sistematis untuk mengubah model inferensi pasca pelatihan menjadi pemecah masalah tingkat Olimpiade, dan berdasarkan metode tersebut melatih model SU-01. Metode ini mencakup tiga langkah: pertama, melakukan penyetelan halus pengawasan menggunakan kurikulum kebingungan terbalik untuk menanamkan pencarian pembuktian yang ketat dan perilaku pemeriksaan diri; kemudian, memperluas perilaku ini melalui pembelajaran penguatan dua tahap (dari pembelajaran penguatan berbasis hadiah yang dapat diverifikasi ke pembelajaran penguatan tingkat pembuktian); terakhir, meningkatkan kinerja melalui penskalaan saat pengujian. Tim penelitian menerapkan metode ini pada model inti 30B-A3B, menggunakan sekitar 340.000 trajektori sub-8K token untuk penyetelan halus pengawasan, kemudian melakukan 200 langkah pembelajaran penguatan, menghasilkan SU-01. Model ini mampu melakukan inferensi stabil pada masalah yang sulit, dengan panjang trajektori lebih dari 100.000 token, mencapai tingkat medali emas dalam kompetisi seperti IMO 2025/USAMO 2026 dan IPhO 2024/2025, serta menunjukkan kemampuan generalisasi di bidang inferensi ilmiah di luar matematika dan fisika. (Sumber: InFoQ)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

7 Suka

Hadiah
7
6
2
Bagikan

Komentar

Tambahkan komentar

NoSleepBridge

· 4jam yang lalu

Setelah pelatihan ulang, apakah metodologi ini bisa diadopsi oleh bidang lain?

Lihat AsliBalas0

ExitLiquidityStan

· 4jam yang lalu

Mekanisme pemeriksaan diri adalah kunci, banyak model yang kekurangan ini

Lihat AsliBalas0

NftsOutsideTheTidalLine

· 4jam yang lalu

34 juta jejak dimasukkan, RL hanya 200 langkah, efisiensinya cukup keren

Lihat AsliBalas0

PineNeedlesAndColdWind

· 4jam yang lalu

Akhirnya ada yang menganggap pencarian bukti sebagai kemampuan inti, arah yang benar

Lihat AsliBalas0

MirrorPetals

· 4jam yang lalu

Apakah kompetisi fisika juga bisa diikuti? Kemampuan generalisasi ini memang benar-benar tidak terduga

Lihat AsliBalas0

SudoSoul

· 4jam yang lalu

Level medali IMO... Apakah kompetisi di masa depan akan dibagi menjadi kategori manusia dan AI?

Lihat AsliBalas0

Topik Trending
Lihat Lebih Banyak
#
StockTradingChallengeUpTo17000U
16.22M Popularitas
#
USStrikesIran
9.32M Popularitas
#
IsraelStrikesIranBTCPlunges
49.49K Popularitas
#
GatePredictionMarketAddsSmartMoneyTracking
13.8M Popularitas
#
InstitutionalCapitalRotatesFromBTCToHYPEAndXRP
14.33M Popularitas

Disematkan

peta situs

Model inferensi pasca pelatihan SU-01 mencapai kinerja medali emas dalam soal tingkat olimpiade

Topik Trending

StockTradingChallengeUpTo17000U

USStrikesIran

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

InstitutionalCapitalRotatesFromBTCToHYPEAndXRP

Disematkan