ARC-AGI-3 mengumumkan pengujian manusia terbesar dalam sejarah: semua level telah ditembus manusia, AI masih memiliki kekurangan

robot
Pembuatan abstrak sedang berlangsung
Berita ME News, 15 April (UTC+8), menurut pemantauan Beating, Yayasan Hadiah ARC mengumumkan dataset kinerja manusia ARC-AGI-3, ini adalah studi pengujian manusia terbesar dalam seri ARC-AGI hingga saat ini, dengan 458 peserta. Dataset ini berisi 342 rekaman replay operasi manusia lengkap, mencakup 25 lingkungan publik, semuanya telah dirilis secara terbuka. ARC-AGI-3 mencakup 135 lingkungan inferensi abstrak, peserta tidak menerima petunjuk permainan apa pun, harus mengeksplorasi, menyimpulkan aturan, dan merancang strategi sendiri. Pengujian dilakukan di pusat pengujian offline di San Francisco, setiap sesi berlangsung selama 90 menit, peserta mendapatkan sekitar 130 dolar sebagai gaji dasar ditambah 5 dolar untuk setiap lingkungan yang berhasil diselesaikan. Semua pengujian dilakukan dengan kondisi "pertama kali lulus", yaitu setiap peserta hanya melihat satu kali dan mencoba satu kali, mengukur kemampuan belajar dan beradaptasi terhadap masalah baru. Manusia dan AI mendapatkan informasi yang sama persis, tanpa adanya perbedaan informasi. Kesimpulan utama: semua lingkungan dalam ARC-AGI-3 berhasil dilalui manusia, setiap lingkungan minimal diselesaikan oleh dua peserta independen, dan sebagian besar lingkungan diselesaikan oleh lebih dari lima orang. Yayasan Hadiah ARC menyatakan, "Kami belum mencapai AGI, dataset ini adalah buktinya." Sejak pratinjau ARC-AGI-3, hampir 1 juta pengajuan evaluasi AI telah diterima untuk lingkungan terbuka. Berdasarkan data ini, yayasan juga mengumumkan dua penyesuaian aturan penilaian: pertama, mengubah patokan manusia dari " pemain terbaik kedua" menjadi "pemain median", untuk mengurangi pengaruh keberuntungan terhadap skor; kedua, meningkatkan batas skor per level dari 100% menjadi 115%, untuk mencegah performa buruk di satu level merusak hasil keseluruhan. Dampak bersih dari kedua penyesuaian ini adalah skor manusia dan AI masing-masing meningkat sedikit sekitar 0,5 poin persentase. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan