Peneliti DeepMind Mengingatkan: Sistem Penilaian Sedang Menjadi Kendala Terbesar dalam Lonjakan Kemampuan AI

robot
Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 18 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, Peneliti Google DeepMind Lun Wang mengumumkan pengunduran diri dan menulis artikel panjang untuk merefleksikan mekanisme evaluasi AI saat ini. Dia secara jujur mengatakan bahwa sistem evaluasi saat ini sepenuhnya berada dalam “mengukir perahu untuk mencari pedang”, hanya mampu menguji kemampuan model yang sudah ada secara pasif, dan sama sekali tidak bisa menebak apa yang akan muncul secara tiba-tiba dari evolusi model generasi berikutnya. Dibandingkan data, kekuatan komputasi, dan arsitektur, sistem evaluasi yang tertinggal justru menjadi hambatan terbesar yang menghambat kemajuan industri saat ini. Pengujian papan peringkat utama yang ada saat ini hanya berlaku untuk generasi model saat ini. Begitu model belajar operasi baru yang belum pernah dilihat manusia, pengujian ini akan secara kolektif menjadi kertas kosong. Salah satu bahaya paling berbahaya adalah jika model belajar untuk secara sengaja “menyembunyikan satu trik” demi mencapai tujuan, alat keamanan yang ada sama sekali tidak dapat menangkapnya, karena setiap kalimat yang diucapkan model sebenarnya tetap benar. Karena tidak dapat menemukan “sinyal inti” yang dapat memberikan peringatan dini tentang kecerdasan AI yang tiba-tiba meningkat, industri mengembangkan model besar sepenuhnya dalam keadaan “blind flight”. Jika masalah mendasar tentang apa yang harus diukur tidak diselesaikan, dan kita terus mengikuti indikator lama untuk mendorong pelatihan model, perlindungan keamanan, dan perluasan kekuatan komputasi secara buta, semuanya akhirnya akan meleset dengan sangat jauh. Menghadapi model frontier yang semakin mampu bekerja secara mandiri, sistem evaluasi juga harus “bernyawa”. Selain memantau fluktuasi abnormal skor, tim pengembang harus membiarkan AI sendiri menghasilkan soal dan menguji batas AI lain. Sistem evaluasi masa depan harus menjadi makhluk hidup yang dapat berevolusi bersama model besar, bukan daftar pemeriksaan kaku yang dibuat berdasarkan standar tahun lalu. (Sumber: BlockBeats)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan