Opus 4.7の低思考度がSonnet 4.6の最大値を上回り、Anthropicが初のエージェント操作チューニングガイドを公開

robot
概要作成中
AIMPACT ニュース、5 月 20 日(UTC+8)、動察 Beating のモニタリングによると、Anthropic は初の公式開発ガイドを公開し、Claude 4.6 と Opus 4.7 のコンピュータおよびブラウザ操作シナリオにおける解像度の上限、思考深度の配分、およびキャッシュによるコスト削減メカニズムを詳細に開示しました。 画面解像度はエージェントのクリック精度を直接決定します。Claude 4.6 はスクリーンショットの長辺の上限を 1568 ピクセル、Opus 4.7 は 2576 ピクセルとしています。スクリーンショットが制限を超えると、API サーバー側が自動的に等比縮小を行い、その結果、モデルが生成するクリック座標がクライアントの元画像とずれが生じます。そのため、開発者は事前にクライアント側でスクリーンショットを 1280x720(Claude 4.6 推奨)または 1080p(Opus 4.7 推奨)に縮小する必要があります。 インターフェース操作は主に視覚認識と要素の位置特定に依存しており、長いチェーンロジックの推論はあまり必要としません。テストによると、Opus 4.7 は低思考深度(low)での操作性能が Sonnet 4.6 の最大思考深度(max)に匹敵し、トークンコストは後者の 10 分の 1 にすぎません。公式は思考オプションを high に設定することを推奨しており、max 深度と比較してトークン消費が半減するだけでなく、成功率も完全に同等であり、モデルの過剰思考による請求額倍増を防ぐために max の使用は避けるべきです。 1 枚のスクリーンショットがコンテキストで最大 1800 トークンを消費するため、公式は 3 層のコスト削減策を提示しています:常駐のシステムレベルキャッシュブレークポイントを 1 つ配置し、残りの 3 つのブレークポイントを直近数回のツール実行結果に動的に割り当てる;クライアント側でスクロールプルーニングを行い、コンテキストに最新の 3 枚のスクリーンショットのみを保持し、残りはプレースホルダーで置き換える;コンテキスト深度が 90% に近づいたときに要約圧縮をトリガーする。 さらに、API にはバッチツール computer_batch が導入され、単一呼び出しで視覚依存のない複数の操作を一括実行できます。また、エージェントアドバイザーメカニズム(Advisor Tool)が提供され、メインモデルがバックグラウンドで直接高次の Opus モデルを呼び出して実行ステップを監査できるようになります。開発者はさらに、録画ガイドモード(Teach Mode、すなわちユーザーの実際の操作軌跡を録画し、再生時に指示として参照する)を利用することで、タスクの成功率を大幅に向上させることができます。 (出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし