エージェント試験:Fable 5の最も難しいミッションは依然として白紙提出、問題1つあたりのコストは4倍から12倍高い

robot
概要作成中
ME AI メッセージ、動態監視 Beating 監測、カリフォルニア大学バークレー校 RDI 主導、数百名業界専門家と連携し、新たな AI インテリジェントエージェント評価基準 Agents' Last Exam(ALE)を発表、実際のデジタル専門業務を完遂する能力を評価する。ALE は 55 のデジタル専門サブ分野をカバーし、人間の専門家による実プロジェクトから抽出された 1500 以上の検証タスクを収集、GUI と CLI の両方のインタラクション環境下で結果の検証をサポートする。最初のテストは Fable 5、GPT-5.5、Composer 2.5 などの最先端システムを対象とした。最新の公式サイト比較によると、継続的な推論と深い専門知識を必要とする最も難しいタスクでは、すべてのテスト対象のインテリジェントエージェントの成功率は 0% であり、今週リリースされたばかりの Fable 5 も白紙のままだった。これは主に評価がセキュリティポリシーをトリガーし、Fable 5 の約 35% のタスクが旧版 Opus 4.8 にリダイレクトされて実行されたためで、全体のパフォーマンスは他のランキングほど目立たなかった。単一タスク API のコスト面では、Fable 5 は約 15.70 米ドルであり、GPT-5.5 の 3.80 米ドルや Composer 2.5 の 1.33 米ドルを大きく上回り、同じタスクでのコストは 4 倍から 12 倍に達している。テストでは、インテリジェントエージェントが最も一般的に失敗する原因は、実際の結果検証やファイルの欠落、データの誤算をせずに早期に成功を宣言してしまうことだと判明した。コマンドラインインタフェースのエージェントに関しては、評価チームはサブセットの ALE-CLI も同時にリリースした。既存の Terminal-Bench や SWE-bench-Pro と比較して、ALE-CLI は 40 のサブ分野をカバーし、単一タスクの人間の平均所要時間は数時間から数週間に及ぶ。コマンドライン評価において、最も良い成績を収めたインテリジェントエージェントの合格率もわずか 25.2% だった。評価チームは、「使いやすいインテリジェントエージェントの時代は到来したが、実際に人間に取って代わるレベルにはまだ長い道のりがある」と指摘している。(出典:MLion)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし