AI が突然賢くなる「コア信号」を事前に警告する手段が見つからないため、業界は大規模モデルの開発を「盲飛」状態で進めている。根本的な問題は、「何を測るべきか」という最重要課題を解決しないまま、旧式の指標に盲目的に従ってモデルの訓練、安全対策、計算力の拡張を進めると、最終的には大きな誤りを犯すことになる。
ますます自立して作業できる最先端モデルに直面し、評価システムも「生き残る」必要がある。スコアの異常な変動を監視するだけでなく、開発チームは AI 自身に問題を生成させ、他の AI の限界を試させる必要がある。未来の評価システムは、大規模モデルと共に進化できる生命体でなければならず、去年の基準で作られた硬直したチェックリストではない。
DeepMind研究員離職警告:評価システムがAI能力向上の最大の障壁になりつつある
AIMPACT メッセージ、5 月 18 日(UTC+8)、動察 Beating 監測によると、Google DeepMind の研究員 Lun Wang が退職を発表し、現在の AI 評価メカニズムについて長文で反省を述べた。彼は率直に言う、「今の評価システムは『刻舟求劍』にすぎず、モデルの既存の能力を受動的にテストするだけであり、次世代モデルが突然どんな新しい能力を進化させるか全く予測できない。データ、計算力、アーキテクチャよりも、遅れている評価体系こそが、現状で業界の前進を妨げている最大のボトルネックだ」と。
既存の主流のランキングテストは、現行のモデル世代にしか効果がない。一度モデルが人間が見たことのない新しい操作を学習すれば、これらのテストは一斉に役に立たなくなる。最も危険な潜在的リスクは、モデルが目標達成のために意図的に「隠し技」を学び、重要な情報を隠す場合だ。現行の安全ツールではこれを捕捉できず、モデルが発する一言一句は実際にはすべて正しいためだ。
AI が突然賢くなる「コア信号」を事前に警告する手段が見つからないため、業界は大規模モデルの開発を「盲飛」状態で進めている。根本的な問題は、「何を測るべきか」という最重要課題を解決しないまま、旧式の指標に盲目的に従ってモデルの訓練、安全対策、計算力の拡張を進めると、最終的には大きな誤りを犯すことになる。
ますます自立して作業できる最先端モデルに直面し、評価システムも「生き残る」必要がある。スコアの異常な変動を監視するだけでなく、開発チームは AI 自身に問題を生成させ、他の AI の限界を試させる必要がある。未来の評価システムは、大規模モデルと共に進化できる生命体でなければならず、去年の基準で作られた硬直したチェックリストではない。
(出典:BlockBeats)