Anthropic は正式に Claude Sonnet 5 を発表し、公式発表のベンチマークスコアによると、複数の指標がフラッグシップモデル Opus 4.8 に迫っている。API 標準価格は100万トークンあたり入力 $3/出力 $15 で、Opus より約6割安い。 (前回のニュース:米カリフォルニア州が Anthropic との協力を発表:全州機関が半額で Claude を利用可能) (背景補足:AI 高価格時代の終焉は目前?トークンが必ず値下がりする5つの構造的理由)
6割安く、性能はほんのわずかだけ劣る——完璧なビジネスストーリーに聞こえるが、本当にそんなに良いのだろうか?先ほど、Anthropic は Claude Sonnet 5 を正式にリリースし、Free および Pro ユーザーのデフォルトモデルに設定した。価格面では、API 標準価格は100万トークンあたり入力 $3、出力 $15(8月31日までのキャンペーン期間は $2/$10)で、フラッグシップモデル Opus 4.8 の $5/$25 と比較して約6割安い。
Anthropic 公式が発表した数字は以下の通りだが、すべてのスコアは公式の自己評価データであり、第三者による独立検証はまだ行われていない。
SWE-bench Pro(エージェント型コード能力)では、Sonnet 5 が63.2%を獲得、前世代の Sonnet 4.6 は58.1%、フラッグシップの Opus 4.8 は69.2%。
Terminal-Bench 2.1 ターミナル操作:Sonnet 5 80.4%、Opus 4.8 82.7%。
Humanity's Last Exam 多分野推論:Sonnet 5 はツール使用で57.4%に達し、Opus 4.8 の57.9%にほぼ追いついた。
GDPval-AA v2 知識作業能力:Sonnet 5 はスコア1,618を獲得し、逆に Opus 4.8 の1,615を上回った。
コンピューター操作能力も進歩:OSWorld-Verified 評価では、Sonnet 5 が81.2%を獲得、前世代は78.5%。このベンチマークテストの核心的なシナリオは、モデルが実際にデスクトップを操作し、実際のOS環境でスクリーンショット、ドラッグ&ドロップ、アプリ間のデータ転送などのタスクを完了させることで、実際の自動化ワークフローの難易度に近い。
さらに、Sonnet 5 は最大100万トークンのコンテキストウィンドウに対応し、最大出力は128kトークンに達する。つまり、一度に約750冊の小説に相当するテキスト量や、大企業の全契約ファイルを入力でき、モデルは単一の対話内でファイルをまたいだ比較、要約、意思決定を完了でき、バッチ処理は不要。この仕様は特に長期のエージェント型タスクに適しており、モデルが途中で前の文脈を「忘れる」ことがない。
Sonnet 5 は更新版の tokenizer を採用している。tokenizer を平たく言えば、テキストをトークンに分割する方法であり、分割方法が変われば、同じテキストでも計算されるトークン数が異なり、請求書も変わる。
Anthropic は、同じ入力でも新しい tokenizer ではコンテンツに応じて1.0倍から1.35倍のトークン数が発生する可能性があると説明している。公式は価格を「おおむねコストニュートラル」に調整したと主張しているが、高トラフィックユーザーは自らベンチマークテストを実施することを推奨しており、請求書が下がるどころか上がる可能性もある。
セキュリティ面では、Anthropic の報告によると、Sonnet 5 は Sonnet 4.6 よりも幻覚やお世辞の傾向が低く、悪意のあるリクエストを拒否する能力も高い。ただし、セキュリティ比較は相対的である:Sonnet 5 の不適切な行動発生率は、より強力な Opus 4.8 よりも高く、厳格制限版の Claude Mythos Preview よりも高い。
Mozilla との協力による Firefox 147 の脆弱性開発評価では、Sonnet 5 は利用可能な脆弱性を生成できなかった(0%)が、部分成功率は13.2%で、Sonnet 4.6 の8.8%を上回った。これらの数字は Opus 4.8 の68.8%と比較するとまだ大きな差があるが、Anthropic はネットワークセキュリティ保護をデフォルトで有効化している。
557.12K 人気度
180.24K 人気度
67.08K 人気度
517.26K 人気度
3.83M 人気度
Claude Sonnet 5 がリリース:Anthropic、多くのパフォーマンスでOpusに迫ると主張も、API料金は6割安い
Anthropic は正式に Claude Sonnet 5 を発表し、公式発表のベンチマークスコアによると、複数の指標がフラッグシップモデル Opus 4.8 に迫っている。API 標準価格は100万トークンあたり入力 $3/出力 $15 で、Opus より約6割安い。
(前回のニュース:米カリフォルニア州が Anthropic との協力を発表:全州機関が半額で Claude を利用可能)
(背景補足:AI 高価格時代の終焉は目前?トークンが必ず値下がりする5つの構造的理由)
6割安く、性能はほんのわずかだけ劣る——完璧なビジネスストーリーに聞こえるが、本当にそんなに良いのだろうか?先ほど、Anthropic は Claude Sonnet 5 を正式にリリースし、Free および Pro ユーザーのデフォルトモデルに設定した。価格面では、API 標準価格は100万トークンあたり入力 $3、出力 $15(8月31日までのキャンペーン期間は $2/$10)で、フラッグシップモデル Opus 4.8 の $5/$25 と比較して約6割安い。
スコアがフラッグシップに迫る
Anthropic 公式が発表した数字は以下の通りだが、すべてのスコアは公式の自己評価データであり、第三者による独立検証はまだ行われていない。
SWE-bench Pro(エージェント型コード能力)では、Sonnet 5 が63.2%を獲得、前世代の Sonnet 4.6 は58.1%、フラッグシップの Opus 4.8 は69.2%。
Terminal-Bench 2.1 ターミナル操作:Sonnet 5 80.4%、Opus 4.8 82.7%。
Humanity's Last Exam 多分野推論:Sonnet 5 はツール使用で57.4%に達し、Opus 4.8 の57.9%にほぼ追いついた。
GDPval-AA v2 知識作業能力:Sonnet 5 はスコア1,618を獲得し、逆に Opus 4.8 の1,615を上回った。
コンピューター操作能力も進歩:OSWorld-Verified 評価では、Sonnet 5 が81.2%を獲得、前世代は78.5%。このベンチマークテストの核心的なシナリオは、モデルが実際にデスクトップを操作し、実際のOS環境でスクリーンショット、ドラッグ&ドロップ、アプリ間のデータ転送などのタスクを完了させることで、実際の自動化ワークフローの難易度に近い。
さらに、Sonnet 5 は最大100万トークンのコンテキストウィンドウに対応し、最大出力は128kトークンに達する。つまり、一度に約750冊の小説に相当するテキスト量や、大企業の全契約ファイルを入力でき、モデルは単一の対話内でファイルをまたいだ比較、要約、意思決定を完了でき、バッチ処理は不要。この仕様は特に長期のエージェント型タスクに適しており、モデルが途中で前の文脈を「忘れる」ことがない。
請求書が必ずしも「安く」なるとは限らない
Sonnet 5 は更新版の tokenizer を採用している。tokenizer を平たく言えば、テキストをトークンに分割する方法であり、分割方法が変われば、同じテキストでも計算されるトークン数が異なり、請求書も変わる。
Anthropic は、同じ入力でも新しい tokenizer ではコンテンツに応じて1.0倍から1.35倍のトークン数が発生する可能性があると説明している。公式は価格を「おおむねコストニュートラル」に調整したと主張しているが、高トラフィックユーザーは自らベンチマークテストを実施することを推奨しており、請求書が下がるどころか上がる可能性もある。
セキュリティ面では、Anthropic の報告によると、Sonnet 5 は Sonnet 4.6 よりも幻覚やお世辞の傾向が低く、悪意のあるリクエストを拒否する能力も高い。ただし、セキュリティ比較は相対的である:Sonnet 5 の不適切な行動発生率は、より強力な Opus 4.8 よりも高く、厳格制限版の Claude Mythos Preview よりも高い。
Mozilla との協力による Firefox 147 の脆弱性開発評価では、Sonnet 5 は利用可能な脆弱性を生成できなかった(0%)が、部分成功率は13.2%で、Sonnet 4.6 の8.8%を上回った。これらの数字は Opus 4.8 の68.8%と比較するとまだ大きな差があるが、Anthropic はネットワークセキュリティ保護をデフォルトで有効化している。