AI自動最適化実行フレームワークにより、Haiku 4.5端末の成績がトップに:林俊旸はこれが彼の予測していた「環境設計」の転換であると述べた

robot
概要作成中

ビット界ニュースによると、1M AI Newsのモニタリングで、スタンフォード、MIT、韓国のゲーム会社KRAFTONの研究者がMeta-Harnessを発表した。これはAIが自動的に実行を最適化するためのフレームワーク一式(harness。モデルを包み込み、ドライバーとなるAgentの行動を促す実行用の足場。プロンプト設計、ツール呼び出し、コンテキスト管理を含む)である。人が手作業で書いた実行フレームワークとは異なり、Meta-Harnessでは、コーディングAgentが過去の候補フレームワークのコード、実行ログ、評価を読み取り、自動的に反復して最適化する。端末操作のベンチマークTerminalBench-2上で、Meta-HarnessはClaude Haiku 4.5の合格率を37.6%まで引き上げ、Goose(35.5%)やClaude Code(27.5%)を上回った。報告されているすべてのHaiku 4.5の実行フレームワークの中で1位である。Claude Opus 4.6では合格率76.4%で2位。前通義千問の技術責任者である林俊旸が、論文の著者の投稿を転送し、次のようにコメントした。「『モデル+実行フレームワーク』は『モデルだけ見ている』を超えた。Agentのパフォーマンスは、フレームワークの設計と品質によって大きく影響を受ける。私は、これが正しい方向だと確かに思う」。林俊旸は3月27日に公開した長文(現在は削除済み)の中で、環境設計が副プロジェクトから、真のスタートアップのカテゴリになると予見していた。Meta-Harnessは実験データでこの判断を裏づけた。同一のモデルでも、AIによって最適化された実行フレームワークに切り替えると、成績の差は最大10パーセントポイントに達し得る。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • 人気の Gate Fun

    もっと見る
  • 時価総額:$2.27K保有者数:2
    0.00%
  • 時価総額:$2.37K保有者数:2
    1.04%
  • 時価総額:$2.24K保有者数:1
    0.00%
  • 時価総額:$2.24K保有者数:1
    0.00%
  • 時価総額:$2.25K保有者数:1
    0.00%
  • ピン