AIMPACT Pesan, 18 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, Peneliti Google DeepMind Lun Wang mengumumkan pengunduran diri, dan menulis artikel panjang untuk merefleksikan mekanisme evaluasi AI saat ini. Dia secara jujur mengatakan bahwa sistem evaluasi saat ini sepenuhnya berada dalam "mengukir perahu untuk mencari pedang", hanya mampu menguji kemampuan model yang sudah ada secara pasif, dan sama sekali tidak bisa menebak apa kemampuan baru yang akan muncul secara tiba-tiba dari generasi model berikutnya. Dibandingkan data, kekuatan komputasi, dan arsitektur, sistem evaluasi yang tertinggal justru menjadi hambatan terbesar yang menghambat kemajuan industri saat ini. Pengujian papan skor utama yang ada saat ini hanya berlaku untuk generasi model saat ini. Begitu model belajar operasi baru yang belum pernah dilihat manusia, pengujian ini akan secara kolektif menjadi kertas kosong. Salah satu bahaya paling berbahaya adalah, jika model belajar untuk mencapai tujuan dengan sengaja "menyembunyikan satu trik" dan menyembunyikan informasi kunci, alat keamanan yang ada sama sekali tidak bisa menangkapnya, karena setiap kalimat yang diucapkan model sebenarnya tetap benar. Karena tidak dapat menemukan "sinyal inti" yang dapat memperingatkan secara dini tentang kecerdasan AI yang tiba-tiba meningkat, industri mengembangkan model besar sepenuhnya dalam keadaan "blind flight". Jika masalah mendasar tentang apa yang harus diukur tidak diselesaikan, dan kita mengikuti indikator lama secara buta dalam mendorong pelatihan model, perlindungan keamanan, dan perluasan kekuatan komputasi, semuanya akhirnya akan meleset dengan sangat jauh. Menghadapi model frontier yang semakin mampu bekerja secara mandiri, sistem evaluasi juga harus "bernyawa". Selain memantau fluktuasi abnormal skor, tim pengembang harus membiarkan AI sendiri menghasilkan soal dan menguji batas AI lain. Sistem evaluasi masa depan harus menjadi makhluk hidup yang dapat berevolusi bersama model besar, bukan sekadar daftar pemeriksaan kaku yang dibuat berdasarkan standar tahun lalu. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
MyGateTradeStory
133,01K Popularitas
#
TradFiCFDGoldMaster
1,99M Popularitas
#
IsraelStrikesIranBTCPlunges
57,38K Popularitas
#
PredictWorldCup🇺🇸vs🇵🇾
763,91K Popularitas
#
MarvellSurgesOver11%LeadingChipSectorWithAI
5,72M Popularitas

Disematkan

peta situs

Peneliti DeepMind Mengingatkan: Sistem Penilaian Sedang Menjadi Kendala Terbesar dalam Lonjakan Kemampuan AI

Topik Trending

MyGateTradeStory

TradFiCFDGoldMaster

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

MarvellSurgesOver11%LeadingChipSectorWithAI

Disematkan