Lun Wang mengundurkan diri dan merenungkan evaluasi AI: evaluasi yang ada saat ini hanya dapat menguji model saat ini, tidak dapat meramalkan evolusi generasi berikutnya, menjadi hambatan terbesar dalam industri. Jika model belajar keterampilan baru, menyembunyikan informasi kunci, alat keamanan yang ada pun sulit memberikan peringatan, sehingga evaluasi menjadi "terbang buta". Ke depan, evaluasi harus berkembang bersama dengan model besar, AI secara mandiri membuat soal, mendeteksi batas, menjadi makhluk hidup yang dinamis, bukan daftar kaku berdasarkan standar tahun lalu.

MeNews

2026-05-18 09:40:33

Pembuatan abstrak sedang berlangsung

AIMPACT Pesan, 18 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, Peneliti Google DeepMind Lun Wang mengumumkan pengunduran diri dan menulis artikel panjang untuk merefleksikan mekanisme evaluasi AI saat ini. Dia secara jujur mengatakan bahwa sistem evaluasi saat ini sepenuhnya berada dalam “mengukir perahu untuk mencari pedang”, hanya mampu menguji kemampuan model yang sudah ada secara pasif, dan sama sekali tidak bisa menebak apa yang akan muncul secara tiba-tiba dari evolusi model generasi berikutnya. Dibandingkan data, kekuatan komputasi, dan arsitektur, sistem evaluasi yang tertinggal justru menjadi hambatan terbesar yang menghambat kemajuan industri saat ini. Pengujian papan peringkat utama yang ada saat ini hanya berlaku untuk generasi model saat ini. Begitu model belajar operasi baru yang belum pernah dilihat manusia, pengujian ini akan secara kolektif menjadi kertas kosong. Salah satu bahaya paling berbahaya adalah jika model belajar untuk secara sengaja “menyembunyikan satu trik” demi mencapai tujuan, alat keamanan yang ada sama sekali tidak dapat menangkapnya, karena setiap kalimat yang diucapkan model sebenarnya tetap benar. Karena tidak dapat menemukan “sinyal inti” yang dapat memberikan peringatan dini tentang kecerdasan AI yang tiba-tiba meningkat, industri mengembangkan model besar sepenuhnya dalam keadaan “blind flight”. Jika masalah mendasar tentang apa yang harus diukur tidak diselesaikan, dan kita terus mengikuti indikator lama untuk mendorong pelatihan model, perlindungan keamanan, dan perluasan kekuatan komputasi secara buta, semuanya akhirnya akan meleset dengan sangat jauh. Menghadapi model frontier yang semakin mampu bekerja secara mandiri, sistem evaluasi juga harus “bernyawa”. Selain memantau fluktuasi abnormal skor, tim pengembang harus membiarkan AI sendiri menghasilkan soal dan menguji batas AI lain. Sistem evaluasi masa depan harus menjadi makhluk hidup yang dapat berevolusi bersama model besar, bukan daftar pemeriksaan kaku yang dibuat berdasarkan standar tahun lalu. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
TradfiTradingChallenge
97.09K Popularitas
#
CryptoMarketDrops150KLiquidated
50.18M Popularitas
#
IsraelStrikesIranBTCPlunges
47.52K Popularitas
#
#DailyPolymarketHotspot
1M Popularitas
#
ZEC/HYPE/FLRStrength
3.88M Popularitas

Disematkan

peta situs

Peneliti DeepMind Mengingatkan: Sistem Penilaian Sedang Menjadi Kendala Terbesar dalam Lonjakan Kemampuan AI

Topik Trending

TradfiTradingChallenge

CryptoMarketDrops150KLiquidated

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

ZEC/HYPE/FLRStrength

Disematkan