Anthropic は正式に Claude Sonnet 5 を発表し、公式発表のベンチマークスコアによると、複数の指標がフラッグシップモデル Opus 4.8 に迫っている。API 標準価格は100万トークンあたり入力 $3／出力 $15 で、Opus より約6割安い。
（前回のニュース：米カリフォルニア州が Anthropic との協力を発表：全州機関が半額で Claude を利用可能）
（背景補足：AI 高価格時代の終焉は目前？トークンが必ず値下がりする5つの構造的理由）

6割安く、性能はほんのわずかだけ劣る——完璧なビジネスストーリーに聞こえるが、本当にそんなに良いのだろうか？先ほど、Anthropic は Claude Sonnet 5 を正式にリリースし、Free および Pro ユーザーのデフォルトモデルに設定した。価格面では、API 標準価格は100万トークンあたり入力 $3、出力 $15（8月31日までのキャンペーン期間は $2/$10）で、フラッグシップモデル Opus 4.8 の $5/$25 と比較して約6割安い。

スコアがフラッグシップに迫る

Anthropic 公式が発表した数字は以下の通りだが、すべてのスコアは公式の自己評価データであり、第三者による独立検証はまだ行われていない。

SWE-bench Pro（エージェント型コード能力）では、Sonnet 5 が63.2%を獲得、前世代の Sonnet 4.6 は58.1%、フラッグシップの Opus 4.8 は69.2%。

Terminal-Bench 2.1 ターミナル操作：Sonnet 5 80.4%、Opus 4.8 82.7%。

Humanity's Last Exam 多分野推論：Sonnet 5 はツール使用で57.4%に達し、Opus 4.8 の57.9%にほぼ追いついた。

GDPval-AA v2 知識作業能力：Sonnet 5 はスコア1,618を獲得し、逆に Opus 4.8 の1,615を上回った。

コンピューター操作能力も進歩：OSWorld-Verified 評価では、Sonnet 5 が81.2%を獲得、前世代は78.5%。このベンチマークテストの核心的なシナリオは、モデルが実際にデスクトップを操作し、実際のOS環境でスクリーンショット、ドラッグ＆ドロップ、アプリ間のデータ転送などのタスクを完了させることで、実際の自動化ワークフローの難易度に近い。

さらに、Sonnet 5 は最大100万トークンのコンテキストウィンドウに対応し、最大出力は128kトークンに達する。つまり、一度に約750冊の小説に相当するテキスト量や、大企業の全契約ファイルを入力でき、モデルは単一の対話内でファイルをまたいだ比較、要約、意思決定を完了でき、バッチ処理は不要。この仕様は特に長期のエージェント型タスクに適しており、モデルが途中で前の文脈を「忘れる」ことがない。

請求書が必ずしも「安く」なるとは限らない

Sonnet 5 は更新版の tokenizer を採用している。tokenizer を平たく言えば、テキストをトークンに分割する方法であり、分割方法が変われば、同じテキストでも計算されるトークン数が異なり、請求書も変わる。

Anthropic は、同じ入力でも新しい tokenizer ではコンテンツに応じて1.0倍から1.35倍のトークン数が発生する可能性があると説明している。公式は価格を「おおむねコストニュートラル」に調整したと主張しているが、高トラフィックユーザーは自らベンチマークテストを実施することを推奨しており、請求書が下がるどころか上がる可能性もある。

セキュリティ面では、Anthropic の報告によると、Sonnet 5 は Sonnet 4.6 よりも幻覚やお世辞の傾向が低く、悪意のあるリクエストを拒否する能力も高い。ただし、セキュリティ比較は相対的である：Sonnet 5 の不適切な行動発生率は、より強力な Opus 4.8 よりも高く、厳格制限版の Claude Mythos Preview よりも高い。

Mozilla との協力による Firefox 147 の脆弱性開発評価では、Sonnet 5 は利用可能な脆弱性を生成できなかった（0%）が、部分成功率は13.2%で、Sonnet 4.6 の8.8%を上回った。これらの数字は Opus 4.8 の68.8%と比較するとまだ大きな差があるが、Anthropic はネットワークセキュリティ保護をデフォルトで有効化している。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
GateCompletesDividendDistribution
557.12K 人気度
#
StrategyBuybackSurges12%
180.24K 人気度
#
IsraelStrikesIranBTCPlunges
67.08K 人気度
#
PredictWorldCupShare20000U
517.26K 人気度
#
TrumpDisclosesOver100MBTCETH
3.83M 人気度

ピン留め

サイトマップ

Claude Sonnet 5 がリリース：Anthropic、多くのパフォーマンスでOpusに迫ると主張も、API料金は6割安い

スコアがフラッグシップに迫る

請求書が必ずしも「安く」なるとは限らない

人気の話題

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

ピン留め