Yayasan Hadiah ARC mengumumkan dataset kinerja manusia ARC-AGI-3, yang berisi hasil pengujian dari 458 peserta dalam 135 lingkungan penalaran abstrak tanpa petunjuk permainan. Semua lingkungan berhasil diselesaikan oleh manusia, dan bukti bahwa AGI belum tercapai. Selain itu, yayasan menyesuaikan aturan penilaian sehingga skor manusia dan AI sedikit meningkat.

MeNews

2026-04-15 06:22:49

Pembuatan abstrak sedang berlangsung

Berita ME News, 15 April (UTC+8), menurut pemantauan Beating, Yayasan ARC Prize mengumumkan dataset kinerja manusia untuk ARC-AGI-3, yang merupakan studi pengujian manusia terbesar dalam seri ARC-AGI hingga saat ini, dengan 458 peserta.
Dataset ini berisi 342 rekaman lengkap pemutaran operasi manusia, mencakup 25 lingkungan publik, dan telah sepenuhnya dipublikasikan secara terbuka.
ARC-AGI-3 mencakup 135 lingkungan inferensi abstrak, di mana penguji tidak menerima petunjuk permainan apa pun, harus mengeksplorasi sendiri, menyimpulkan aturan, dan merancang strategi.
Pengujian dilakukan di pusat pengujian offline di San Francisco, setiap sesi berlangsung selama 90 menit, peserta mendapatkan gaji dasar sekitar 130 dolar AS ditambah 5 dolar AS untuk setiap lingkungan yang berhasil diselesaikan.
Semua pengujian dilakukan dengan kondisi “pertama kali berhasil”, yaitu setiap peserta hanya melihat satu kali dan mencoba satu kali, mengukur kemampuan belajar dan beradaptasi terhadap masalah baru.
Manusia dan AI mendapatkan informasi yang sama persis, tanpa adanya perbedaan informasi.
Kesimpulan utama: semua lingkungan dalam ARC-AGI-3 berhasil diselesaikan oleh manusia, setiap lingkungan minimal diselesaikan oleh dua peserta independen, dan sebagian besar lingkungan diselesaikan oleh lebih dari lima orang.
Yayasan ARC Prize menyatakan, “Kami belum mencapai AGI, dataset ini adalah buktinya.”
Sejak pratinjau ARC-AGI-3, hampir 1 juta pengajuan evaluasi AI telah diterima dari lingkungan publik.
Berdasarkan data ini, yayasan juga mengumumkan dua penyesuaian aturan penilaian: pertama, mengubah standar manusia dari “pemain terbaik kedua” menjadi “pemain median”, untuk mengurangi pengaruh keberuntungan terhadap skor; kedua, meningkatkan batas skor per level dari 100% menjadi 115%, agar performa buruk di satu level tidak merusak total skor.
Dampak bersih dari kedua penyesuaian ini adalah skor manusia dan AI keduanya meningkat sedikit sekitar 0,5 poin persentase.
(Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GatePreIPOsLaunchesWithSpaceX
114.09K Popularitas
#
GateMarchTransparencyReport
39.64K Popularitas
#
IsraelStrikesIranBTCPlunges
29.69K Popularitas
#
GoldmanSachsFilesBitcoinIncomeETF
773.94K Popularitas
#
USBlocksStraitofHormuz
746.12K Popularitas

Sematkan

peta situs

ARC-AGI-3 mengumumkan pengujian manusia terbesar dalam sejarah: semua tantangan telah ditembus manusia, AI masih memiliki jarak

Topik Trending

GatePreIPOsLaunchesWithSpaceX

GateMarchTransparencyReport

IsraelStrikesIranBTCPlunges

GoldmanSachsFilesBitcoinIncomeETF

USBlocksStraitofHormuz

Sematkan