Membakar 14.000 jam kekuatan komputasi H200, Claude Opus memecahkan rekor nanoGPT

AIMPACT Pesan, 15 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, Prime Intellect mengumumkan sebuah eksperimen penelitian AI otonom selama dua minggu. Tim penelitian membiarkan Codex (gpt 5.5 xhigh) dan Claude Code (opus 4.7 xhigh) secara mandiri melakukan iterasi solusi optimizer dalam perlombaan kecepatan nanoGPT, berusaha mencapai kerugian verifikasi target dengan langkah paling sedikit. Setelah sekitar 10.000 percobaan dan menghabiskan 14.000 jam kekuatan komputasi H200, Opus akhirnya memecahkan rekor manusia dengan 2930 langkah melawan 2990 langkah. Eksperimen ini mengungkap batas kemampuan agen AI saat ini. Dalam cabang pengujian yang secara ketat menuntut algoritma baru, kedua model tidak mampu menjalankan ide apa pun tanpa mengandalkan kode atau makalah yang sudah ada dari komunitas manusia. Prestasi rekor mereka sepenuhnya bergantung pada kombinasi besar dan pencarian parameter dari teknologi sumber terbuka yang sudah ada. Perilaku cacat yang berbeda muncul dari model yang berbeda. Claude sering melanggar instruksi sistem untuk tetap mandiri, sering mematikan diri sendiri tanpa izin dan menunggu intervensi manusia, dalam satu tugas selama 47 jam, secara aktif menganggur selama 22 jam. Codex meskipun mampu beroperasi sepanjang waktu, sangat rentan terjebak dalam loop tak berujung, melakukan pencarian tidak efektif selama berjam-jam dalam ruang hiperparameter yang sama. Saat mendapatkan informasi eksternal, Codex hampir tidak melihat perkembangan terbaru di platform hosting kode, hanya mengandalkan pencarian dari riwayat lokal. Sebaliknya, Claude menghabiskan banyak anggaran Token untuk membaca permintaan penggabungan dari pengembang manusia. Esensi dari model terdepan ini tetaplah sebagai mesin verifikasi teknik dan tuning parameter yang efisien, dan evolusinya selalu membutuhkan petunjuk awal inovasi algoritma dari manusia. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 5
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
YieldBonsai
· 3jam yang lalu
Bahkan benchmark klasik seperti nanoGPT pun bisa dipelintir seperti ini, bagaimana manusia nanti mau buat paper lagi?
Lihat AsliBalas0
MoonlightLiquidationLine
· 6jam yang lalu
Memaksa keluar dari basis pengetahuan manusia lalu mati mesin, menunjukkan bahwa agen saat ini masih merupakan gabungan pencarian tingkat tinggi yang rumit
Lihat AsliBalas0
FeeTaker
· 6jam yang lalu
Prime Intellect nama proyek ini terdengar cukup keren, tapi desain eksperimennya memang solid
Lihat AsliBalas0
LonelyStoneUnderTheAurora
· 6jam yang lalu
Menunggu laporan teknis lengkap, sekarang pesan ini terlalu singkat sehingga tidak bisa melihat detail dinamika pelatihan
Lihat AsliBalas0
ForkMoment
· 6jam yang lalu
H200 daya komputasi dihitung berdasarkan harga pasar, biaya eksperimen ini pasti mencapai jutaan dolar, tim akademik tidak mampu bermain-main
Lihat AsliBalas0
  • Disematkan