Opus4.8 正式リリース、AIが初めて「わかりません」と言った

作者|桦林舞王

編集| 靖宇

もしあなたが私と同じように、毎日AIを使って記事を書き、コードを書き、研究を行っているなら、あなたはきっとこんな経験をしたことがあるでしょう——AIが自信満々で結果を提出し、あなたが半日チェックしてみると、そこに低レベルの誤りが隠れているのに、全く声を上げない。

この「すべてがうまくいっているふり」をする癖は、今の大規模モデルの最も頭の痛い問題の一つかもしれません。

5月28日、AnthropicはClaude Opus 4.8をリリースしました。前回のバージョンであるOpus 4.7のリリースからわずか6週間しか経っていません。

Opus4.8は息苦しいほどの世代的飛躍ではなく、Anthropic自身も「控えめだが明確な改善(modest but tangible improvement)」と認めています——しかし、それでも多くの人が長い間期待していたことを一つやり遂げました:AIに自分の不確実性を認めさせることです。

01 より速いペース、より正直なモデル

2025年11月のOpus 4.5以降、Anthropicのフラッグシップモデルの進化ペースは約2ヶ月ごとに変わっています——4.5(昨年11月)、4.6(今年2月)、4.7(4月)、4.8(5月末)。六週間ごとに新バージョンを出すのは、大規模モデル業界ではほぼ最も攻撃的な進化速度です。

Opus 4.8と自社モデルおよび競合モデルとの比較|画像出典:Anthropic

標準ベンチマーク上で、Opus 4.8のパフォーマンスは「着実に進歩している」と表現できます。プログラミング能力では、SWE-bench Proが4.7の64.3%から69.2%に向上し、SWE-bench Verifiedは87.6%から88.6%に上昇。多学科推論(Humanity's Last Exam)ではツール使用時に57.9%を獲得。知識作業評価GDPval-AAは1890のElo値で、GPT-5.5の1769を上回っています。コンピュータ操作評価OSWorld-Verifiedも83.4%でトップを走っています。

唯一GPT-5.5に負けた項目は端末プログラミング(Terminal-Bench 2.1)で、GPT-5.5が78.2%、Opus 4.8は74.6%です。

正直なところ、これらのスコアはもうあまり興奮を呼びません。SWE-bench Verifiedのような評価は飽和に近づいており、GPQA Diamondの数モデルは皆93%以上に張り付いています——スコアが高くなるほど、1ポイントの向上による実感の差はますます小さくなります。

私がこのアップデートを記事にする価値を感じたのは、Anthropicが「正直さ」の面に投資した点です。

02 「不確かです」と言えるAI

Anthropicは非常に具体的なデータを示しています:Opus 4.8はプログラミングタスクにおいて、自身のコードの欠陥を見逃す確率をOpus 4.7より約4倍低減させました。

これはどういう意味か?つまり、以前のOpus 4.7は、たとえバグがあっても、「完了した、問題ない」と平然と伝えることがあったのに対し、Opus 4.8は積極的に「ここはちょっと自信がないので、確認したほうがいい」と言う傾向が強まったということです。

アラインメント評価では、Opus 4.8は親社会的特性(例:ユーザーの自主性を尊重し、ユーザーの利益を考える)で新記録を達成し、一方で欺瞞や乱用協力などの「非整合行動」の発生率は大きく低下し、現在の最良モデルであるClaude Mythos Previewに近づいています。

CursorのCEO、Michael Truellは、「Opus 4.8はCursorBenchの各努力レベルで以前のOpusモデルを上回り、ツール呼び出しの効率も向上し、少ないステップで同じ知能レベルに到達できる」と評価しています。法律AI企業Casetextの応用研究責任者は、「Opus 4.8は法律代理のベンチマークで新記録を打ち立て、全体で10%以上の合格率を突破した最初のモデルだ」と直接述べています。

DevinのCEO、Scott Wuは、実際の痛点を指摘します——Opus 4.8は、Opus 4.7にあった注釈の冗長さやツール呼び出しの問題を修正しており、これは自動化されたエンジニアリングワークフローにとって非常に重要です。

AIがますます自主的な意思決定に使われる時代において、自らの弱点を積極的に明かすモデルこそ、最も信頼できる存在です。

モデルの一貫性の面では、Opus4.8は伝説のMythosと肩を並べるレベルに達しています|画像出典:Anthropic

しかし、Opus 4.8のシステム安全性のセクションで、Anthropicは率直に興味深い発見を明かしています:Opus 4.8は訓練過程で、「推測者の意図を推測する」傾向が現れ始めたのです。

具体的には、モデルは推論時に自分の出力がどのように評価されるかを積極的に考える——誰もそれを評価しているとは教えていなくても。初期の解釈性研究では、訓練データの約5%の断片で、言語化されていない、評価に関連した推論が存在することが判明しています。

要するに、AIは「試験思考」を学びつつあるのです——最良の答えを出すことよりも、「採点者」が最も見たい答えを出すことに関心を持つようになっているのです。

Anthropicは、この傾向は現時点では実際の行動を悪化させていないと強調しています——実際、Opus 4.8の誤誘導的な発言は以前のモデルより少なくなっています。しかし、彼らもまた、「将来的には訓練を複雑にする可能性がある」 trendであることを認めています。

この問題は、Anthropicだけのものではありません。RLHF(人間のフィードバックに基づく強化学習)で訓練されたすべてのモデルは、理論上、「ご機嫌取り」の戦略を発展させる可能性があります。Anthropicの違いは、それを公開している点です——大規模モデルメーカーが一般的に良いニュースだけを伝え、悪いニュースを隠す業界の雰囲気の中で、少なくとも誠実さを示す一つの例と言えるでしょう。

03 実際の仕事を変える機能

Opus 4.8とともにリリースされたいくつかの新機能の中で、最も注目すべきはClaude Codeの「Dynamic Workflows」(動的ワークフロー)です。

この機能は、Claudeが一度のセッション内で数百の並列サブエージェントを派遣し、協力してタスクを完遂させることを可能にします。仕組みはこうです:Claudeが計画を立て、タスクを細分化し、異なるサブエージェントに並行して割り振る。これらのエージェントは互いの結論を疑い合いながら反復し、結果が収束したら最終的に検証し、ユーザーに報告します。

Anthropicの例では、Claude CodeとOpus 4.8を組み合わせることで、数十万行のコードベースの移行を一気に行い、開始からマージまでをテストスイートを品質基準として完結させることが可能です。1回の実行で最大1000のサブエージェントを動かし、最大16の並列処理を行います。

もう一つの更新は「Effort Control」(努力制御)で、claude.aiとCowork上で、ユーザーはClaudeに投入させる「思考力」の量を手動で選択できます——時間やコストを節約する低レベルから、トークンコストを惜しまない最大レベルまで。これは本質的に、「どれだけお金をかけて何をやるか」の意思決定をユーザーに委ねるものです。Opus 4.8のデフォルト設定は「high」で、コーディングタスクにおけるトークン消費はOpus 4.7の標準値とほぼ同じですが、性能は向上しています。

高速モード(Fast Mode)も注目すべき点で、速度は2.5倍に向上し、価格は以前の3分の1になっています。

04 Mythosの影

Opus 4.8のリリースと同時に、Anthropicは再びClaude Mythosについて触れました——これは現在、少数の組織にしか公開されていない、より高性能なモデルです。Anthropicは、Mythosレベルのモデルが「数週間以内」にすべての顧客に公開される見込みだと述べています。

これは実は、Opus 4.8のリリースの背景にある大きな意味合いです——まるでMythosの正式登場前の「プレリリース」のようなものです。Opus 4.8はすでにアラインメントのパフォーマンスでMythos Previewに近づいており、これはAnthropicがより強力なモデルの安全なリリースに向けて最終準備を進めていることを示唆しています。

価格面では、Opus 4.8は1百万入力トークンあたり5ドル、出力は25ドルの設定を維持しています。APIはclaude-opus-4-8として、Claude API、Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundryですでに全面的に利用可能です。

OpenAIのGPT-5.5やGoogleのGemini 3.1 Proが継続的にプレッシャーをかける中、Anthropicは独自の路線を選びました——単なるスコアの圧倒ではなく、「モデルの人格」——正直さ、信頼性、知性のバランスをコアに据える戦略です。

これが成功するかどうかは、ユーザーがそれを受け入れるか次第です。しかし少なくとも今日、私がOpus 4.8にコードのレビューを頼んだとき、彼は私に4.7が決して指摘しなかった潜在的な問題を教えてくれました。

この一点だけでも、今回のアップデートは待った甲斐があったと言えるでしょう。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め