ARC-AGI-3:Chollet's benchmark baru mengungkapkan bahwa AI kontemporer sama sekali tidak mampu beradaptasi secara langsung

robot
Pembuatan abstrak sedang berlangsung

Apa yang Terjadi

François Chollet telah merilis ARC-AGI-3, sebuah tolok ukur baru untuk mengukur kemajuan AGI.

Rincian

  • Chollet adalah penulis Keras, dan sejak 2019 melalui “On the Measure of Intelligence” telah meneliti bagaimana mengukur kecerdasan. Pandangan inti-nya: tolok ukur yang baik harus mengungkap kelemahan sistem, bukan mendukung klaim yang ada.
  • ARC-AGI-3 menambahkan tes “penalaran interaktif”, untuk melihat apakah sistem dapat menyesuaikan diri sambil mencoba dalam situasi baru berdasarkan pengetahuan umum.
  • Hasilnya sangat jelas: penguji manusia langsung dapat menyelesaikannya semua pada percobaan pertama; efisiensi aksi model AI teratas kurang dari 1%.
  • Tolok ukur ini akan terus diperbarui: skor versi sebelumnya melonjak setelah peningkatan kemampuan penalaran model dan kemampuan kode, jadi tolok ukur harus terus ditingkatkan untuk mengungkap apa yang masih kurang.

Manusia vs. Model Saat Ini

Indikator Manusia Model AI Teratas
Efisiensi Penyelesaian/Penanganan Pertama 100% <1%

Informasi Inti: Ini bukan masalah perubahan kuantitatif yang bisa diselesaikan dengan penyetelan, melainkan kurangnya kemampuan “penyesuaian di tempat”.

Mengapa Ini Penting

  • Jika sistem memerlukan persiapan yang besar untuk menyelesaikan tugas yang dapat “dilihat langsung” oleh manusia, ini merupakan masalah mendasar bagi jalur AGI: apakah kita menggunakan indikator yang salah untuk mengukur kecerdasan?
  • Chollet tidak mengatakan bahwa AI saat ini buruk, tetapi mengatakan: informasi yang diukur terbatas pada ingatan dan pencocokan pola yang dibangun dari skala; tolok ukur yang dapat mengukur “kemampuan adaptasi nyata dalam menghadapi situasi baru” lebih dekat dengan apa yang kita pedulikan.
  • Bagi peneliti dan pengembang, sinyal dari ARC-AGI-3 sangat jelas: hanya meningkatkan skala tidak akan menutupi kesenjangan ini; mekanisme pembelajaran dan adaptasi memerlukan perubahan struktural.

Penilaian Dampak

  • Pentingnya: Tinggi
  • Kategori: Penelitian AI, Wawasan Teknologi, Tren Industri

Kesimpulan: Ini adalah sinyal awal namun krusial, lebih berharga bagi peneliti dan pembangun — mereka yang dapat melakukan inovasi arsitektur dalam mekanisme pembelajaran dan adaptasi akan memiliki keunggulan; murni melakukan perdagangan tidak banyak terkait dengan arah ini.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan