MEニュース 4月16日(UTC+8)、動察Beating監測によると、AI安全評価機関METRは「時間地平線」(Time Horizon)基準を更新し、新たにGoogle Gemini 3.1 Proのテストデータを追加した。この基準は最先端のAIエージェントが独立してプログラミングタスクを完了する能力の上限を追跡しており、今年2月の開始以来、AIエージェントの能力向上を測る重要な指標となっている。測定方法は、人間のソフトウェアエンジニア(平均約5年の経験)とAIエージェントに同じ一連の100以上のソフトウェアタスクを完了させ、人間の所要時間でタスクの難易度を評価することだ。主要な指標は二つ:50%時間地平線(AIが半分の確率で完了できる最高のタスク難易度)と80%時間地平線(AIが8割の確率で完了できる最高のタスク難易度)である。 Gemini 3.1 Proはこれら二つの指標で順位が逆転した。50%時間地平線では第二位で、圧倒的にリードするClaude Opus 4.6に次ぐ。 1. Claude Opus 4.6:約12.0時間 2. Gemini 3.1 Pro:約6.4時間 3. GPT-5.2:約5.9時間 4. GPT-5.4:約5.7時間 しかし、より厳しい80%時間地平線では、Gemini 3.1 Proが逆転してトップに立った。 1. Gemini 3.1 Pro:約1.5時間 2. Claude Opus 4.6:約1.2時間 3. GPT-5.2:約1.1時間 Claude Opus 4.6はより難しいタスクに挑戦できるが成功率の変動が大きいのに対し、Gemini 3.1 Proは天井が低めだが能力範囲内でより安定している。予測可能な結果が求められる生産現場では後者の方が実用的かもしれない。 前世代のGemini 3 Pro(50%時間地平線約3.7時間)と比べて、Gemini 3.1 Proは約71%向上した。長期的な視点では、METRのデータによると、最先端モデルの時間地平線は2019年のGPT-2の数秒から現在の十数時間へと拡大し、約4.3ヶ月ごとに倍増している。METRは「指数関数的な成長の鈍化は見られない」と述べている。 注意すべきは、METRのタスクはソフトウェアエンジニアリング、機械学習、ネットワークセキュリティにまたがり、すべて定義が明確で自動採点可能な独立したタスクであることだ。METRの後続研究では、採点方式をアルゴリズム判定から人間の総合評価に変更した場合、AIのパフォーマンスが著しく低下することも判明している。12時間の時間地平線は、AIが人間の半日分の実働を代替できることを意味しない。 (出典:BlockBeats)
METRがAIエージェント能力基準を更新、Gemini 3.1Proの信頼性がすべての最先端モデルを超えトップに登る
MEニュース 4月16日(UTC+8)、動察Beating監測によると、AI安全評価機関METRは「時間地平線」(Time Horizon)基準を更新し、新たにGoogle Gemini 3.1 Proのテストデータを追加した。この基準は最先端のAIエージェントが独立してプログラミングタスクを完了する能力の上限を追跡しており、今年2月の開始以来、AIエージェントの能力向上を測る重要な指標となっている。測定方法は、人間のソフトウェアエンジニア(平均約5年の経験)とAIエージェントに同じ一連の100以上のソフトウェアタスクを完了させ、人間の所要時間でタスクの難易度を評価することだ。主要な指標は二つ:50%時間地平線(AIが半分の確率で完了できる最高のタスク難易度)と80%時間地平線(AIが8割の確率で完了できる最高のタスク難易度)である。 Gemini 3.1 Proはこれら二つの指標で順位が逆転した。50%時間地平線では第二位で、圧倒的にリードするClaude Opus 4.6に次ぐ。
しかし、より厳しい80%時間地平線では、Gemini 3.1 Proが逆転してトップに立った。
Claude Opus 4.6はより難しいタスクに挑戦できるが成功率の変動が大きいのに対し、Gemini 3.1 Proは天井が低めだが能力範囲内でより安定している。予測可能な結果が求められる生産現場では後者の方が実用的かもしれない。
前世代のGemini 3 Pro(50%時間地平線約3.7時間)と比べて、Gemini 3.1 Proは約71%向上した。長期的な視点では、METRのデータによると、最先端モデルの時間地平線は2019年のGPT-2の数秒から現在の十数時間へと拡大し、約4.3ヶ月ごとに倍増している。METRは「指数関数的な成長の鈍化は見られない」と述べている。
注意すべきは、METRのタスクはソフトウェアエンジニアリング、機械学習、ネットワークセキュリティにまたがり、すべて定義が明確で自動採点可能な独立したタスクであることだ。METRの後続研究では、採点方式をアルゴリズム判定から人間の総合評価に変更した場合、AIのパフォーマンスが著しく低下することも判明している。12時間の時間地平線は、AIが人間の半日分の実働を代替できることを意味しない。
(出典:BlockBeats)