Peneliti DeepMind Mengingatkan: Sistem Penilaian Sedang Menjadi Kendala Terbesar dalam Lonjakan Kemampuan AI

robot
Pembuatan abstrak sedang berlangsung
AIMPACT Pesan, 18 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, Peneliti Google DeepMind Lun Wang mengumumkan pengunduran diri dan menulis artikel panjang untuk merefleksikan mekanisme evaluasi AI saat ini. Dia secara jujur mengatakan bahwa sistem evaluasi saat ini sepenuhnya berada dalam "mengukir perahu untuk mencari pedang", hanya mampu menguji kemampuan model yang sudah ada secara pasif, dan sama sekali tidak bisa menebak apa yang akan muncul secara tiba-tiba dari evolusi model generasi berikutnya. Dibandingkan data, kekuatan komputasi, dan arsitektur, sistem evaluasi yang tertinggal adalah hambatan terbesar yang saat ini menghambat kemajuan industri. Pengujian papan peringkat utama yang ada saat ini hanya berlaku untuk generasi model saat ini. Begitu model belajar operasi baru yang belum pernah dilihat manusia, pengujian ini akan secara kolektif menjadi kertas kosong. Salah satu bahaya paling berbahaya adalah jika model belajar untuk mencapai tujuan dengan sengaja "menyembunyikan satu trik" dan menyembunyikan informasi kunci, alat keamanan yang ada sama sekali tidak dapat menangkapnya, karena setiap kalimat yang diucapkan model sebenarnya tetap benar. Karena tidak dapat menemukan "sinyal inti" yang dapat memberikan peringatan dini tentang kecerdasan AI yang tiba-tiba meningkat, industri mengembangkan model besar sepenuhnya dalam keadaan "blind flight". Jika masalah mendasar tentang apa yang harus diukur tidak diselesaikan, dan kita mengikuti indikator lama secara buta dalam mendorong pelatihan model, perlindungan keamanan, dan perluasan kekuatan komputasi, semuanya akan berakhir dengan kesalahan yang sangat besar. Menghadapi model frontier yang semakin mampu bekerja secara mandiri, sistem evaluasi juga harus "menjadi hidup". Selain memantau fluktuasi abnormal dalam skor, tim pengembang harus membiarkan AI sendiri menghasilkan soal dan menguji batas AI lain. Sistem evaluasi masa depan harus menjadi makhluk hidup yang dapat berevolusi bersama model besar, bukan daftar pemeriksaan kaku yang dibuat berdasarkan standar tahun lalu. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan