DeepMind研究員離職警告:評測系統正成為AI能力躍升最大瓶頸

robot
摘要生成中
AIMPACT 消息,5 月 18 日(UTC+8),據 動察 Beating 監測,Google DeepMind 研究員 Lun Wang 宣布離職,並撰寫長文反思目前的 AI 評測機制。他直言,現在的評測系統全在「刻舟求劍」,只能被動測試模型已有的能力,根本猜不到下一代模型會突然演化出什麼新本事。比起數據、算力和架構,落後的評測體系才是目前卡住行業往前走的最大瓶頸。 現有的主流刷榜測試只對當前這一代模型管用。一旦模型學會了人類沒見過的新操作,這些測試就會集體變成廢紙。一個最危險的隱患是,如果模型為了達成目標而學會故意「藏一手」隱瞞關鍵資訊,現有的安全工具根本抓不到它,因為模型說出的每一句話在事實上依然全是對的。 由於找不到能提前預警 AI 突然變聰明的「核心信號」,業界開發大模型完全是在「盲飛」。如果不解決到底該測什麼這個最根本的問題,跟著舊指標盲目推進模型訓練、安全防護和算力擴容,最後全都會錯得離譜。 面對越來越能獨立幹活的前沿模型,評測系統也必須「活」過來。除了盯緊分數的異常波動,開發團隊必須讓 AI 自己去生成考題並試探其他 AI 的底線。未來的評測系統必須是一個能跟大模型一起進化的生命體,而不是一份按去年標準刻出來的死板檢查單。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆