広場
最新
注目
ニュース
プロフィール
ポスト
Opus 4.7の低思考度がSonnet 4.6の最大値を上回り、Anthropicが初のエージェント操作チューニングガイドを公開
MeNews
2026-06-27 08:08:22
フォロー
概要作成中
AIMPACTニュース、5月20日(UTC+8)、動察Beatingのモニタリングによると、Anthropicが初の公式開発ガイドを公開し、Claude 4.6とOpus 4.7のコンピュータおよびブラウザ操作シナリオにおける解像度上限、思考深度配分、およびキャッシュコスト削減メカニズムについて詳細に開示した。
画面解像度はエージェントのクリック精度に直接影響する。Claude 4.6はスクリーンショットの長辺を最大1568ピクセルまで解析可能で、Opus 4.7は2576ピクセルである。スクリーンショットが制限を超えると、APIサーバー側が自動的に画像を等比縮小し、その結果モデルが生成するクリック座標がクライアントの元画像とずれてドリフトする。そのため、開発者は事前にクライアント側でスクリーンショットを1280x720(Claude 4.6推奨)または1080p(Opus 4.7推奨)に拡大縮小する必要がある。
インターフェース操作は主に視覚認識と要素位置特定に依存し、長い連鎖的な論理推論はあまり必要とされない。テストによると、Opus 4.7は低思考深度(low)での操作パフォーマンスがSonnet 4.6の最大思考深度(max)と同等であり、トークンコストは後者の10分の1である。公式では思考オプションをhighに設定することを推奨しており、max深度と比較してトークン消費が半減するだけでなく、成功率も完全に同等であり、maxを有効にしてモデルが過剰思考して請求額が倍増するのを避けるべきである。
単一のスクリーンショットがコンテキスト内で最大1800トークンを消費するため、公式は3層のコスト削減策を示している:常駐1つのシステムキャッシュブレークポイント、および他の3つのブレークポイントを最近数ラウンドのツール実行結果に動的に割り当てる;クライアント側でスクロールプルーニングを行い、コンテキスト内に最新の3枚のスクリーンショットのみを保持し、残りはプレースホルダーで置き換える;コンテキスト深度が90%に近づいたときに要約圧縮をトリガーする。
さらに、APIにはバッチツールcomputer_batchが導入され、単回呼び出しで視覚依存のない複数の操作をパッケージ化して実行できる;また、エージェントアドバイザーメカニズム(Advisor Tool)が提供され、メインモデルがバックグラウンドで直接高次のOpusモデルを呼び出して実行ステップを監査できる。開発者は録画ガイドモード(Teach Mode、すなわちユーザーの実際の操作軌跡を録画し、再生時に指示として参照する)を使用することで、タスク成功率を大幅に向上させることができる。
(出典:動察Beating)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
SKHynixTopsKOSPIByMarketCap
1.59M 人気度
#
MicronEarningsBeatExpectationsSharesRise
332.97K 人気度
#
IsraelStrikesIranBTCPlunges
64.39K 人気度
#
WorldCup🏴vs🇧🇷
338.47K 人気度
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
183.4K 人気度
ピン留め
サイトマップ
Opus 4.7の低思考度がSonnet 4.6の最大値を上回り、Anthropicが初のエージェント操作チューニングガイドを公開
画面解像度はエージェントのクリック精度に直接影響する。Claude 4.6はスクリーンショットの長辺を最大1568ピクセルまで解析可能で、Opus 4.7は2576ピクセルである。スクリーンショットが制限を超えると、APIサーバー側が自動的に画像を等比縮小し、その結果モデルが生成するクリック座標がクライアントの元画像とずれてドリフトする。そのため、開発者は事前にクライアント側でスクリーンショットを1280x720(Claude 4.6推奨)または1080p(Opus 4.7推奨)に拡大縮小する必要がある。
インターフェース操作は主に視覚認識と要素位置特定に依存し、長い連鎖的な論理推論はあまり必要とされない。テストによると、Opus 4.7は低思考深度(low)での操作パフォーマンスがSonnet 4.6の最大思考深度(max)と同等であり、トークンコストは後者の10分の1である。公式では思考オプションをhighに設定することを推奨しており、max深度と比較してトークン消費が半減するだけでなく、成功率も完全に同等であり、maxを有効にしてモデルが過剰思考して請求額が倍増するのを避けるべきである。
単一のスクリーンショットがコンテキスト内で最大1800トークンを消費するため、公式は3層のコスト削減策を示している:常駐1つのシステムキャッシュブレークポイント、および他の3つのブレークポイントを最近数ラウンドのツール実行結果に動的に割り当てる;クライアント側でスクロールプルーニングを行い、コンテキスト内に最新の3枚のスクリーンショットのみを保持し、残りはプレースホルダーで置き換える;コンテキスト深度が90%に近づいたときに要約圧縮をトリガーする。
さらに、APIにはバッチツールcomputer_batchが導入され、単回呼び出しで視覚依存のない複数の操作をパッケージ化して実行できる;また、エージェントアドバイザーメカニズム(Advisor Tool)が提供され、メインモデルがバックグラウンドで直接高次のOpusモデルを呼び出して実行ステップを監査できる。開発者は録画ガイドモード(Teach Mode、すなわちユーザーの実際の操作軌跡を録画し、再生時に指示として参照する)を使用することで、タスク成功率を大幅に向上させることができる。
(出典:動察Beating)