AIMPACT メッセージ、5 月 18 日（UTC+8）、動察 Beating 監測によると、Google DeepMind の研究員 Lun Wang が退職を発表し、現在の AI 評価メカニズムについて長文で反省を述べた。彼は率直に言う、「今の評価システムは『刻舟求劍』にすぎず、モデルの既存の能力を受動的にテストするだけであり、次世代モデルが突然どんな新しい能力を進化させるか全く予測できない。データ、計算力、アーキテクチャよりも、遅れている評価体系こそが、現状で業界の前進を妨げている最大のボトルネックだ」と。

既存の主流のランキングテストは、現行のモデル世代にしか効果がない。一度モデルが人間が見たことのない新しい操作を学習すれば、これらのテストは一斉に役に立たなくなる。最も危険な潜在的リスクは、モデルが目標達成のために意図的に「隠し技」を学び、重要な情報を隠す場合であり、現行の安全ツールでは全く捕捉できない。なぜなら、モデルが発する一言一句は実際にはすべて正しいからだ。

AI が突然賢くなる「コア信号」を事前に警告する手段が見つからないため、業界は大規模モデルの開発を「盲飛」状態で進めている。根本的な問題は、「何を測るべきか」という最重要課題を解決しない限り、旧指標に盲目的に従ってモデルの訓練、安全対策、計算力の拡張を進めることは、最終的に大きな誤りに繋がる。

ますます自立して作業できる最先端モデルに直面し、評価システムも「生き残る」必要がある。スコアの異常な変動を監視するだけでなく、開発チームは AI 自身に問題を生成させ、他の AI の底線を試す必要がある。未来の評価システムは、大規模モデルと共に進化できる生命体でなければならず、去年の基準で作られた硬直したチェックリストではない。

（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
MyGateTradeStory
128.74K 人気度
#
TradFiCFDGoldMaster
1.99M 人気度
#
IsraelStrikesIranBTCPlunges
57.38K 人気度
#
PredictWorldCup🇺🇸vs🇵🇾
762.44K 人気度
#
MarvellSurgesOver11%LeadingChipSectorWithAI
5.72M 人気度

ピン留め

サイトマップ

DeepMind研究員離職警告：評価システムがAI能力向上の最大障壁になりつつある

人気の話題

MyGateTradeStory

TradFiCFDGoldMaster

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

MarvellSurgesOver11%LeadingChipSectorWithAI

ピン留め