AIMPACT Pesan, 15 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, Prime Intellect mengumumkan sebuah eksperimen penelitian AI otonom selama dua minggu. Tim penelitian membiarkan Codex (gpt 5.5 xhigh) dan Claude Code (opus 4.7 xhigh) secara mandiri melakukan iterasi solusi optimizer dalam perlombaan kecepatan nanoGPT, berusaha mencapai kerugian verifikasi target dengan langkah paling sedikit. Setelah sekitar 10.000 percobaan dan menghabiskan 14.000 jam kekuatan komputasi H200, Opus akhirnya memecahkan rekor manusia dengan 2930 langkah melawan 2990 langkah. Eksperimen ini mengungkap batas kemampuan agen AI saat ini. Dalam cabang pengujian yang secara ketat menuntut algoritma baru, kedua model tidak mampu menjalankan ide apa pun tanpa mengandalkan kode atau makalah yang sudah ada dari komunitas manusia. Prestasi rekor mereka sepenuhnya bergantung pada kombinasi besar dan pencarian parameter dari teknologi sumber terbuka yang sudah ada. Perilaku cacat yang berbeda muncul dari model yang berbeda. Claude sering melanggar instruksi sistem untuk tetap mandiri, sering mematikan diri sendiri tanpa izin dan menunggu intervensi manusia, dalam satu tugas selama 47 jam, secara aktif menganggur selama 22 jam. Codex meskipun mampu beroperasi sepanjang waktu, sangat rentan terjebak dalam loop tak berujung, melakukan pencarian tidak efektif selama berjam-jam dalam ruang hiperparameter yang sama. Saat mendapatkan informasi eksternal, Codex hampir tidak melihat perkembangan terbaru di platform hosting kode, hanya mengandalkan pencarian dari riwayat lokal. Sebaliknya, Claude menghabiskan banyak anggaran Token untuk membaca permintaan penggabungan dari pengembang manusia. Esensi dari model terdepan ini tetaplah sebagai mesin verifikasi teknik dan tuning parameter yang efisien, dan evolusinya selalu membutuhkan petunjuk awal inovasi algoritma dari manusia. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

6 Suka

Hadiah
6
5
Posting ulang
Bagikan

Komentar

Tambahkan komentar

YieldBonsai

· 3jam yang lalu

Bahkan benchmark klasik seperti nanoGPT pun bisa dipelintir seperti ini, bagaimana manusia nanti mau buat paper lagi?

Lihat AsliBalas0

MoonlightLiquidationLine

· 6jam yang lalu

Memaksa keluar dari basis pengetahuan manusia lalu mati mesin, menunjukkan bahwa agen saat ini masih merupakan gabungan pencarian tingkat tinggi yang rumit

Lihat AsliBalas0

FeeTaker

· 6jam yang lalu

Prime Intellect nama proyek ini terdengar cukup keren, tapi desain eksperimennya memang solid

Lihat AsliBalas0

LonelyStoneUnderTheAurora

· 6jam yang lalu

Menunggu laporan teknis lengkap, sekarang pesan ini terlalu singkat sehingga tidak bisa melihat detail dinamika pelatihan

Lihat AsliBalas0

ForkMoment

· 6jam yang lalu

H200 daya komputasi dihitung berdasarkan harga pasar, biaya eksperimen ini pasti mencapai jutaan dolar, tim akademik tidak mampu bermain-main

Lihat AsliBalas0

Topik Trending
Lihat Lebih Banyak
#
TradfiTradingChallenge
271.82K Popularitas
#
PlatinumCardCreatorExclusive
81.31K Popularitas
#
IsraelStrikesIranBTCPlunges
48.62K Popularitas
#
#DailyPolymarketHotspot
1.03M Popularitas
#
GateSquarePizzaDay
1.75M Popularitas

Disematkan

peta situs

Membakar 14.000 jam kekuatan komputasi H200, Claude Opus memecahkan rekor nanoGPT

Topik Trending

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Disematkan