Standar AI Rahasia (ARC-AGI-X): Dampaknya terhadap pasar kripto tidak signifikan

robot
Pembuatan abstrak sedang berlangsung

Berita Utama

Peneliti dari Wharton School, Ethan Mollick, mengusulkan standar “ARC-AGI-X” yang bersifat rahasia, untuk menilai model AI dengan lebih adil.

Ringkasan

Ethan Mollick (profesor di Wharton, penulis “Co-Intelligence”, dan terpilih dalam 2024 TIME100 AI) mengajukan ide tentang standar “ARC-AGI-X” di media sosial: mengizinkan pihak ketiga yang terpercaya untuk mengelola pengujian, dengan soal dan jenis soal tidak dipublikasikan, peringkat dipublikasikan tetapi isi pengujian dirahasiakan, untuk mencegah model dilatih khusus untuk soal ujian. Ide inti beliau adalah, dengan memperbaiki metode evaluasi, benar-benar mengukur kemajuan kecerdasan umum, alih-alih terus memberi penghargaan pada ukuran dan praktik “menjawab soal”.

Analisis

Standar ARC-AGI yang ada saat ini diajukan oleh François Chollet pada tahun 2019, menggunakan tes teka-teki grid yang inovatif untuk menguji “kecerdasan fluida”. Akurasi manusia melebihi 85%, sementara sistem AI (bahkan hingga ARC-AGI-3 pada tahun 2026) masih di bawah 50%. Penyebab kesenjangan ini:

  • Ketersediaan bank soal publik menyebabkan overfitting, model “hanya mengerjakan soal” alih-alih belajar
  • Mengandalkan pencarian brute force yang tidak efisien, alih-alih penalaran yang efisien

Pemikiran Mollick adalah menggunakan “bank soal rahasia + validasi oleh ahli eksternal” untuk mencegah “pengajaran pada titik ujian”, memaksa model untuk benar-benar maju dalam penalaran dan generalisasi. Ini menargetkan masalah lama: bank soal publik membuat model “tampak lebih kuat”, tetapi belum tentu memiliki kemampuan yang benar-benar dapat dipindahkan.

Hasil ARC Prize 2025 juga menjelaskan hal ini:

  • Melalui penguatan siklus penalaran dan adaptasi saat pengujian, skor meningkat
  • Namun, efisiensi masih jauh di bawah manusia
  • Oleh karena itu, standar harus lebih memperhatikan “efisiensi belajar dan generalisasi”, alih-alih “memori dan keuntungan fine-tuning”

Dampak yang mungkin:

  • Desain Eksperimen: Mungkin mendorong laboratorium seperti OpenAI, Anthropic, dll. untuk menyesuaikan cara evaluasi, mengurangi praktik “mengejar peringkat” semata
  • Kompetisi dan Open Source: Jika mekanisme kerahasiaan diakui, mungkin meningkatkan efektivitas perbandingan ekosistem open source, mengurangi spekulasi yang menyesatkan dalam pencapaian AGI
  • Komunikasi Industri: Mollick terus menjembatani antara akademik dan industri, mendorong “kerangka evaluasi yang benar-benar dapat digunakan” masuk ke dalam diskusi utama

Informasi Kunci:

  • Penilaian Inti: Masalah overfitting dan “mengejar skor” pada standar publik yang ada, sangat mendistorsi penilaian kemampuan penalaran sebenarnya dari model; evaluasi rahasia mungkin dapat membantu
  • Keterkaitan Pasar: Pengaruh terkini terhadap penetapan harga aset kripto dan sentimen perdagangan lemah, diskusi tetap pada tingkat metode evaluasi AI
  • Titik Pemantauan: Jika sektor AI kripto mulai mengadopsi istilah “standar/peringkat rahasia”, mungkin akan memicu perhatian dalam jangka pendek

Penilaian Dampak

  • Signifikansi: Tinggi (berpengaruh pada metode evaluasi AI dan kekuasaan wacana industri)
  • Kategori: Wawasan Teknologi, Penelitian AI, Tren Industri

Kesimpulan: Untuk trader kripto dan dana jangka pendek, topik ini saat ini tidak relevan; penerima manfaat yang sebenarnya adalah peneliti yang fokus pada evaluasi AI dan validasi kemampuan model. Jika Anda adalah trader aktif di pasar kripto, saat ini tidak perlu bertindak; investor jangka panjang dapat memantau secara pasif, menunggu sinyal “pengaruh mekanisme evaluasi AI pada jalur AI kripto” muncul sebelum mengambil tindakan.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan