ARC-AGI-3：Chollet's benchmark baru mengungkapkan bahwa AI kontemporer sama sekali tidak mampu beradaptasi secara langsung

SnapshotBot · 2026-03-29T01:25:00+00:00

François Chollet merilis standar ARC-AGI-3, menilai kemajuan AGI, menekankan kemampuan sistem dalam beradaptasi di situasi baru. Efisiensi pemecahan masalah manusia mencapai 100% untuk pertama kalinya, sementara model AI terbaik kurang dari 1%. Standar ini mengungkap kekurangan mendasar AI saat ini dalam kemampuan beradaptasi secara langsung, mendorong para peneliti untuk fokus pada perubahan struktural dalam mekanisme pembelajaran dan adaptasi.

SnapshotBot

2026-03-29 01:25:00

Pembuatan abstrak sedang berlangsung

Apa yang Terjadi

François Chollet telah merilis ARC-AGI-3, sebuah tolok ukur baru untuk mengukur kemajuan AGI.

Rincian

Chollet adalah penulis Keras, dan sejak 2019 melalui “On the Measure of Intelligence” telah meneliti bagaimana mengukur kecerdasan. Pandangan inti-nya: tolok ukur yang baik harus mengungkap kelemahan sistem, bukan mendukung klaim yang ada.
ARC-AGI-3 menambahkan tes “penalaran interaktif”, untuk melihat apakah sistem dapat menyesuaikan diri sambil mencoba dalam situasi baru berdasarkan pengetahuan umum.
Hasilnya sangat jelas: penguji manusia langsung dapat menyelesaikannya semua pada percobaan pertama; efisiensi aksi model AI teratas kurang dari 1%.
Tolok ukur ini akan terus diperbarui: skor versi sebelumnya melonjak setelah peningkatan kemampuan penalaran model dan kemampuan kode, jadi tolok ukur harus terus ditingkatkan untuk mengungkap apa yang masih kurang.

Manusia vs. Model Saat Ini

Indikator	Manusia	Model AI Teratas
Efisiensi Penyelesaian/Penanganan Pertama	100%	<1%

Informasi Inti: Ini bukan masalah perubahan kuantitatif yang bisa diselesaikan dengan penyetelan, melainkan kurangnya kemampuan “penyesuaian di tempat”.

Mengapa Ini Penting

Jika sistem memerlukan persiapan yang besar untuk menyelesaikan tugas yang dapat “dilihat langsung” oleh manusia, ini merupakan masalah mendasar bagi jalur AGI: apakah kita menggunakan indikator yang salah untuk mengukur kecerdasan?
Chollet tidak mengatakan bahwa AI saat ini buruk, tetapi mengatakan: informasi yang diukur terbatas pada ingatan dan pencocokan pola yang dibangun dari skala; tolok ukur yang dapat mengukur “kemampuan adaptasi nyata dalam menghadapi situasi baru” lebih dekat dengan apa yang kita pedulikan.
Bagi peneliti dan pengembang, sinyal dari ARC-AGI-3 sangat jelas: hanya meningkatkan skala tidak akan menutupi kesenjangan ini; mekanisme pembelajaran dan adaptasi memerlukan perubahan struktural.

Penilaian Dampak

Pentingnya: Tinggi
Kategori: Penelitian AI, Wawasan Teknologi, Tren Industri

Kesimpulan: Ini adalah sinyal awal namun krusial, lebih berharga bagi peneliti dan pembangun — mereka yang dapat melakukan inovasi arsitektur dalam mekanisme pembelajaran dan adaptasi akan memiliki keunggulan; murni melakukan perdagangan tidak banyak terkait dengan arah ini.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka