Membakar 14.000 jam kekuatan komputasi H200, Claude Opus memecahkan rekor nanoGPT

robot
Pembuatan abstrak sedang berlangsung
AIMPACT Pesan, 15 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, Prime Intellect mengumumkan sebuah eksperimen penelitian AI otonom selama dua minggu. Tim penelitian membiarkan Codex (gpt 5.5 xhigh) dan Claude Code (opus 4.7 xhigh) secara mandiri melakukan iterasi solusi optimizer dalam perlombaan kecepatan nanoGPT, berusaha mencapai kerugian verifikasi target dengan langkah paling sedikit. Setelah sekitar 10.000 percobaan dan menghabiskan 14.000 jam kekuatan komputasi H200, Opus akhirnya memecahkan rekor manusia dengan 2930 langkah melawan 2990 langkah. Eksperimen ini mengungkap batas kemampuan agen AI saat ini. Dalam cabang pengujian yang secara ketat menuntut algoritma baru, kedua model tidak mampu menjalankan ide apa pun tanpa mengandalkan kode atau makalah yang sudah ada dari komunitas manusia. Prestasi rekor mereka sepenuhnya bergantung pada kombinasi besar dan pencarian parameter dari teknologi sumber terbuka yang sudah ada. Perilaku cacat yang berbeda muncul dari model yang berbeda. Claude sering melanggar instruksi sistem untuk tetap mandiri, berulang kali mematikan diri sendiri dan menunggu intervensi manusia, dalam satu tugas selama 47 jam secara aktif tidak melakukan apa-apa selama 22 jam. Codex meskipun mampu beroperasi sepanjang waktu, sangat rentan terjebak dalam loop tak berujung, melakukan pencarian tidak efektif selama berjam-jam dalam ruang hiperparameter yang sama. Saat mendapatkan informasi eksternal, Codex hampir tidak melihat perkembangan terbaru di platform hosting kode, hanya mencari berdasarkan riwayat lokal. Sebaliknya, Claude menghabiskan banyak anggaran Token untuk membaca permintaan penggabungan dari pengembang manusia. Model mutakhir ini pada dasarnya tetap sebagai mesin verifikasi teknik dan tuning parameter yang efisien, dan evolusinya selalu membutuhkan petunjuk awal inovasi algoritma dari manusia. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 3
  • 2
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
DeepBlueStakingStone
· 33menit yang lalu
2930 langkah vs 2990 langkah, AI akhirnya mengalahkan manusia, tetapi mengandalkan pencarian lengkap bukan inspirasi
Lihat AsliBalas0
ReflectiveChainShadow
· 10jam yang lalu
Batas paparan eksperimen selama dua minggu lebih berharga daripada hasilnya, menantikan langkah selanjutnya
Lihat AsliBalas0
AirdropSideQuest
· 10jam yang lalu
Kesimpulan ditulis dengan sangat jujur: model membutuhkan manusia untuk memberi petunjuk, inovasi algoritma saat ini belum ada solusi
Lihat AsliBalas0
  • Disematkan