GPT-5.6が登場。しかし、あなたは使えない。

3日前、OpenAIはこれまでで最も強力なモデルファミリーをリリースしたが、ほとんどの人は触れることができなかった。

6月26日、OpenAIはGPT-5.6を発表した。Sol、Terra、Lunaという3つのモデルだ。Solが旗艦、Terraはバランスの取れたミッドティア、Lunaは高速で安価な選択肢である。紙面上では、GPT-5.5の後に市場が期待していたものそのものだ。より明確な命名規則、明確な価格帯、そしてSolの新しい「ウルトラ」推論モード（複雑なタスクのためにサブエージェントを起動する）を備えている。価格設定は、OpenAIが各ティアをどのように位置づけているかをすべて物語っている。Solは100万トークンあたり5ドル/30ドル（GPT-5.5と同じ）、Terraはそれを半額の2.50ドル/15ドル、Lunaは1ドル/6ドルに引き下げている。これは古い性能の割引ではない。OpenAIは、TerraをGPT-5.5クラスの知能を半額で提供するもの、Lunaをフロンティア推論を必要としないあらゆるタスク向けのボリュームプレーヤーとして売り込んでいる。

命名自体が静かなシグナルだ。OpenAIが「mini」や「nano」をやめたのは、社内でこれらのモデルが実際にはもっと小さいわけではないからだ。単に異なるジョブ向けにチューニングされているだけだ。5.6はファミリーであり、Sol、Terra、Lunaはそれぞれ独立して進化し続けるポジションだ。これはAnthropicがOpus、Sonnet、Haikuで使用しているのと同じ製品分割であり、音楽的な名前の代わりに天体の名前が使われている。

重要で意味のあるベンチマーク——そして重要でないもの

OpenAIは公開するベンチマークを一つ選んだ。Terminal-Bench 2.1だ。これはターミナル環境での実世界のコーディングタスク（計画、反復、ツール調整）をテストする。Solは91.9%を記録した。これはClaude Mythos 5の88.0%を上回り、その特定のベンチマークでの新たな最高記録となる。

ここに落とし穴がある。Terminal-Bench 2.1は、OpenAIが自ら選んだベンチマークでの自己申告スコアだ。Anthropicが同じモデルを自社のミニSWEエージェントハーネスで実行した場合、GPT-5.5は88から約81～83に低下する。つまり、すべてのモデルを同一の評価器で実行すると、リードは縮小するか逆転する。OpenAIはSWE-Bench Pro、FrontierCode、Humanity's Last Examを公開していない。これらのベンチマークでは、Claude Fable 5（Mythos 5と同じ重みを共有）が引き上げられる前に記録を打ち立てていた。したがって、SolがTerminal-BenchでMythosを上回っているのは確かだが、広範な分野でMythosを上回っているかどうかは、OpenAIが慎重に範囲を限定した表現で主張しているに過ぎない。

もう一つのひねりがある。OpenAIのシステムカードは、GPT-5.6の3モデルすべて（Solだけでなく）を、サイバーおよび生物・化学的能力の両方で「高」リスクと分類している。AI自己改善についてはその閾値を下回ると評価された。OpenAIはまた、Solは「エンドツーエンドの攻撃を確実に実行するよりも、脆弱性の発見と修正を支援する方が得意」であり、「攻撃を実行できないとは言っていないが、防御面で優れている」と注意深く表現した保証を付け加えている。さらにOpenAIは4月に準備フレームワークを改訂し、以前の研究分野の一部を削除した。これらの詳細は見出しにはならないが、政策立案者たちが読んでいる内容だ。

本当の話：ワシントンが今やリリースループに加わっている

今すぐGPT-5.6を使えない理由はエンジニアリングの問題ではない。政策の問題だ。

このリリースの2週間前、トランプ政権はAnthropicに対して輸出管理指令を発出し、同社にFable 5とMythos 5へのすべてのアクセスを世界的に無効化するよう強制した。外国人だけでなく、すべての人に対してだ。なぜなら外国人のアクセスを隔離することは技術的に不可能だったからだ。引き金となったのは、Fable 5のジェイルブレイクが報告され、サイバー兵器レベルの能力が引き出せる可能性が実証されたことだった。政権の元AI責任者であるDavid Sacksによると、AnthropicのCEO Dario Amodeiは、指令が発出される前にジェイルブレイクのパッチ適用やモデルの引き上げを拒否したという。

OpenAIがGPT-5.6をリリースしようとしたとき、ホワイトハウスの国家サイバー局長室（ONCD）と科学技術政策局（OSTP）は、OpenAIに対して、より広範なリリース前に、約20の政府承認パートナーに限定するよう要請した。政権はGPT-5.6を「Mythosクラスの能力と同等」と見なしている。OpenAIはこれに同意したが、注目すべき反発があった。Sam Altmanはスタッフに対し、このアプローチは「当社の望ましい長期モデルではない」と述べ、OpenAIは「将来のリリースに向けたより持続可能なアプローチ」に向けて取り組むと語った。同社のブログでも、この制約されたリリースを「持続不可能」と呼んでいる。

つまり、事実上の新しいゲートが出現したということだ。フロンティアモデルは、一般公開前に政府の承認プロセスを経ることになった。まだ正式な枠組みは存在しない。サイバー大統領令はまだ起草中だ。OpenAIはこの限定プレビューを「短期的な措置」として扱い、「数週間以内」に広く利用可能になると約束しており、Altmanは記者団に対し、政府がその期間を受け入れる可能性が高いと示唆したと語っている。一方、Anthropicは部分的な例外措置を得た。Mythos 5は現在、重要なインフラを運営する米国組織に再展開できるようになったが、Fable 5は完全に停止されたままである。

これがベンチマークよりも重要な理由

GPT-5.6のリリースは、実際には技術的な話ではない。製品発表に包まれたガバナンスの話だ。

次のタイムラインを考えてみよう。Anthropicは6月9日にFable 5をリリース。数日以内にジェイルブレイクが実証される。6月13日までに輸出管理命令により完全なシャットダウンが強制される。2週間の交渉が続き、AnthropicのスタッフはワシントンD.C.に詰める。6月26日までにOpenAIはGPT-5.6を同じ政権と調整した限定プレビューでリリース。すべてのAIラボへのメッセージは明確だ。モデルがMythosクラスの能力に達した場合、米国政府がリリースプロセスに関与することになる。好むと好まざるとにかかわらずだ。

これこそが誰も名指ししていない変化だ。私たちは「ラボがいつどのようにリリースするかを決める」から「政府が誰に最初にアクセスを許可するかを決める」へと移行した。枠組みはまだ存在しない。プロセスはアドホックだ。基準は不透明だ。OpenAIは協力している。なぜなら、これが最終的な広範なリリースへの最速の道だと見なしているからだ。Anthropicは戦って敗れた。次のラボ（Google DeepMindであれ、誰であれ）は同じゲートに直面するだろう。

開発者や企業にとって、実際的な影響は即時的だ。あなたのChatGPTはまだGPT-5.5のまま。APIにはGPT-5.6のエンドポイントはない。約20の承認パートナーは、政府によって審査された大規模組織だ。フロンティアモデルへのアクセスに依存する製品を構築している場合、ロードマップには制御不能な変数が追加される。ワシントンの承認スケジュールだ。

価格設定は攻撃的だ——そしてそれは戦略的

旗艦モデルの半額でGPT-5.5クラスの能力を提供するTerraは、単に良い取引というだけではない。防御壁だ。OpenAIはTerraとLunaを、他のすべてのミッドティアおよびバジェットモデルを採算割れさせるように価格設定している。Terraが2.50ドル/15ドルでGPT-5.5の品質を提供すれば、AnthropicのSonnet層やGoogleのミッドティアモデルへのマージン圧力は現実のものとなる。Lunaの1ドル/6ドルは、まさにボリューム展開（コールセンター、コンテンツパイプライン、分類タスクなど）を狙っており、ピークの知能よりもトークンあたりのコストが重要になる。

この価格設定はOpenAIの規模でのみ機能し、そしてそれは広範なアクセスがすぐに実現した場合にのみ機能する。20社しか使えないモデルは価格武器にはならない。デモだ。本当の競争への影響は、GPT-5.6が約束通り数週間以内に一般公開されるか、あるいは政府のゲートがさらに長引くかにかかっている。

私が次に注目していること

「数週間以内」という約束が守られるかどうか。7月中旬が、ChatGPTとAPIのより広範なアクセスに向けた囁かれる目標時期だ。遅れが生じれば、競争上の期間が変わる。

Anthropicの次の動き。Mythos 5は重要なインフラ組織向けに部分的な例外措置を得た。Fable 5は依然として停止中。AnthropicのIPO計画は今年後半に向けて順調に進んでいると報じられているが、旗艦モデルが輸出管理下にある状態で上場することはできない。

大統領令の枠組み。現時点では、プロセスはケースバイケースで、公開された基準はない。正式なルールが一度確立されれば、すべてのラボ（OpenAIとAnthropicだけでなく）のリリースゲートを定義することになる。

ベンチマークの相互検証。SolのTerminal-Benchでの91.9%は印象的だ。Anthropicのハーネスやより広範なベンチマークスイートでの独立した評価によって、それが真の能力の飛躍なのか、範囲限定の主張なのかが決まるだろう。

GPT-5.6はOpenAIがこれまでに構築した中で最も強力なモデルだ。それは議論の余地がない。しかし、このリリースのストーリーはモデルではなく、ゲートだ。初めて、フロンティアAIのリリースはユーザーに直接届かなかった。最初にワシントンに行き、ワシントンが誰が参加できるかを決めた。そのゲートがどのように進化するかは、あらゆるベンチマークスコアよりも、今後10年間のAI展開を形作るだろう。

原文表示