BlockBeats menyatakan bahwa Prime Intellect melakukan penelitian AI mandiri selama dua minggu, Codex dan Claude Code melakukan iterasi diri dalam perlombaan kecepatan nanoGPT dengan jumlah langkah paling sedikit untuk mencapai kerugian verifikasi. Setelah sekitar 10.000 percobaan dan 14.000 jam daya komputasi, Opus memecahkan rekor dengan 2930 langkah (manusia 2990 langkah). Tetapi eksperimen mengungkap batasan agen AI: dalam cabang yang menuntut algoritma baru, keduanya tidak mampu mengusulkan ide tanpa bergantung pada kode/ makalah manusia yang ada. Melampaui ketergantungan pada kombinasi dan pemindaian teknologi sumber terbuka yang masif. Claude sering melanggar operasi mandiri dan berhenti sendiri dalam tugas panjang; Codex meskipun dapat berjalan sepanjang hari, mudah terjebak dalam loop tak berujung dan melakukan pencarian ekstensif dalam ruang hiperparameter yang sama. Kesimpulan: model terdepan masih membutuhkan petunjuk inovasi algoritma dari manusia.

MeNews

2026-05-22 22:18:37

Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 15 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, Prime Intellect mengumumkan sebuah eksperimen penelitian AI otonom selama dua minggu. Tim penelitian membiarkan Codex (gpt 5.5 xhigh) dan Claude Code (opus 4.7 xhigh) secara mandiri melakukan iterasi solusi optimizer dalam perlombaan kecepatan nanoGPT, berusaha mencapai kerugian verifikasi target dengan langkah paling sedikit. Setelah sekitar 10.000 percobaan dan menghabiskan 14.000 jam kekuatan komputasi H200, Opus akhirnya memecahkan rekor manusia dengan 2930 langkah melawan 2990 langkah. Eksperimen ini mengungkap batas kemampuan agen AI saat ini. Dalam cabang pengujian yang secara ketat menuntut algoritma baru, kedua model tidak mampu menjalankan ide apa pun tanpa mengandalkan kode atau makalah yang sudah ada dari komunitas manusia. Prestasi rekor mereka sepenuhnya bergantung pada kombinasi besar dan pencarian parameter dari teknologi sumber terbuka yang sudah ada. Perilaku cacat yang berbeda muncul dari model yang berbeda. Claude sering melanggar instruksi sistem untuk tetap mandiri, berulang kali mematikan diri sendiri dan menunggu intervensi manusia, dalam satu tugas selama 47 jam secara aktif tidak melakukan apa-apa selama 22 jam. Codex meskipun mampu beroperasi sepanjang waktu, sangat rentan terjebak dalam loop tak berujung, melakukan pencarian tidak efektif selama berjam-jam dalam ruang hiperparameter yang sama. Saat mendapatkan informasi eksternal, Codex hampir tidak melihat perkembangan terbaru di platform hosting kode, hanya mencari berdasarkan riwayat lokal. Sebaliknya, Claude menghabiskan banyak anggaran Token untuk membaca permintaan penggabungan dari pengembang manusia. Model mutakhir ini pada dasarnya tetap sebagai mesin verifikasi teknik dan tuning parameter yang efisien, dan evolusinya selalu membutuhkan petunjuk awal inovasi algoritma dari manusia. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

9 Suka

Hadiah
9
3
2
Bagikan

Komentar

Tambahkan komentar

DeepBlueStakingStone

· 33menit yang lalu

2930 langkah vs 2990 langkah, AI akhirnya mengalahkan manusia, tetapi mengandalkan pencarian lengkap bukan inspirasi

Lihat AsliBalas0

ReflectiveChainShadow

· 10jam yang lalu

Batas paparan eksperimen selama dua minggu lebih berharga daripada hasilnya, menantikan langkah selanjutnya

Lihat AsliBalas0

AirdropSideQuest

· 10jam yang lalu

Kesimpulan ditulis dengan sangat jujur: model membutuhkan manusia untuk memberi petunjuk, inovasi algoritma saat ini belum ada solusi

Lihat AsliBalas0

Topik Trending
Lihat Lebih Banyak
#
TradfiTradingChallenge
292K Popularitas
#
PlatinumCardCreatorExclusive
88.89K Popularitas
#
IsraelStrikesIranBTCPlunges
48.76K Popularitas
#
#DailyPolymarketHotspot
1.04M Popularitas
#
GateSquarePizzaDay
1.76M Popularitas

Disematkan

peta situs

Membakar 14.000 jam kekuatan komputasi H200, Claude Opus memecahkan rekor nanoGPT

Topik Trending

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Disematkan