複雑なコマンドライン作業のTerminal-Bench 2.0で、GPT-5.5は82.7%、Claude Opus 4.7の69.4%を13ポイント以上上回っています；OSWorld-VerifiedのAI独立操作による実機テストでは成功率78.7%、人間の基準を超えています；44種類の職業知識作業を対象としたGDPvalでは、84.9%のタスクが業界の専門家レベルに達しています。

しかしながら、GPT-5.5の価格も明らかに上昇しています。

APIの価格は、百万トークンあたり入力5ドル、出力30ドルで、GPT-5.4（入力2.50ドル、出力15ドル）の2倍ですが、公式はGPT-5.5が同じタスクを完了するために必要なトークン数を大幅に削減しており、総コストは必ずしも大きく上昇しないと強調しています。GPT-5.5 Pro APIは百万トークンあたり入力30ドル、出力180ドルです。バッチ処理や弾力的な価格設定は半額の割引を享受でき、標準価格の2.5倍の優先処理も提供されます。

ChatGPTでは、GPT-5.5は「GPT-5.5 Thinking」の名称で段階的に導入され、以前のバージョンを置き換えつつあります。

新たな小さな工夫として、モデルは思考を始める前に一つの思考概要を提示し、ユーザーは実行中に随時話しかけて方向性を調整できる仕組みも追加されています。

GPT-5.5の意義を一言でまとめると、過去のモデルは能力の集合体でしたが、GPT-5.5は計画、検証、継続的な推進を行う作業システムに近づいています。

01 84.9%のタスクが専門家レベルに到達

GPT-5.5と各競合モデルのTerminal-Bench 2.0、GDPval、OSWorld-Verifiedなどの主要ベンチマークテストにおける比較

まず、モデルの実職場シナリオでのパフォーマンスを見てみましょう。OpenAIは「GDPval」と呼ばれるベンチマークを使用し、職業タスクの一連の完遂を求めています。44の職業シナリオをカバーし、財務モデリング、法律分析、データサイエンスレポート、運営計画などが含まれます。

結果は、GPT-5.5が84.9%のタスクで業界の専門家レベルに到達または超えています。比較として、GPT-5.4は83.0%、Claude Opus 4.7は80.3%、Gemini 3.1 Proは67.3%です。

この差は総合点だけにとどまりません。表計算モデリングのタスクでは、GPT-5.5の内部テストで88.5%を記録。投資銀行レベルのモデリングでも先行しています。早期テスターのフィードバックも一貫しており、GPT-5.5 Proの回答は、包括性、構造性、実用性の面でGPT-5.4 Proを明確に上回り、ビジネス、法律、教育、データサイエンス分野で特に顕著です。

数字だけを見ると麻痺しやすいですが、OpenAIは今回は自社の作業現場を公開しています。

OpenAIによると、社内の85%以上の社員が毎週Codexを使用し、財務、広報、マーケティング、製品、データサイエンスなど複数部門で活用しています。広報チームは6か月分の講演招待データを分析し、自動化された分類フローを構築。財務チームは24,771件のK-1税務フォーム（合計71,637ページ）をレビューし、昨年より2週間早く完了。マーケティングチームは自動化された週次レポート生成により、各自週に5～10時間を節約しています。

これは実験室のデモではなく、すでに日常の作業に浸透しています。

02 最強の自主プログラミングモデル

OpenAIは、GPT-5.5が現時点で最も強力な自主プログラミングモデルだと述べています。

Terminal-Bench 2.0（複雑なコマンドライン作業の計画、反復、ツール連携を必要とするテスト）では、GPT-5.5は82.7%、GPT-5.4の75.1%と比較して約8ポイントの向上を示し、トークン消費も少なくなっています。SWE-Bench Pro（実際のGitHub問題の一括解決能力を評価）では58.6%、内部のExpert-SWE評価（長期のプログラミングタスク、中位の人間完了時間は約20時間）でもGPT-5.5はGPT-5.4を上回っています。

Terminal-Bench 2.0とExpert-SWEの散布図

CodexはGPT-5.5の推進により、単一のプロンプトからコード生成、機能テスト、ビジュアルデバッグまでの一連の開発工程を自立して完結できるようになっています。

OpenAI公式のデモ例では、NASAの実データを基に構築された宇宙ミッションアプリケーションが示されており、3Dインタラクション操作や軌道力学のシミュレーションは実物理精度に達しています。地震追跡器もリアルタイムデータを取り込み可視化し、モデルが外部API呼び出しや動的データ処理、リアルタイムレンダリングの完全な能力を備えていることを示しています。

フィードバックについて。Everyの創設者兼CEOのダン・シッパーは次のような経験を語っています。彼は以前、リリース後のバグに遭遇し、数日間自分で調整したが解決できず、最終的に最強のエンジニアに頼んでシステムの一部を書き直してもらったとのこと。GPT-5.5が登場した後、彼は実験を行いました——モデルをバグの未修正状態に戻し、自己解決できるか試したのです。GPT-5.4ではできませんでしたが、GPT-5.5はできたと評価し、「これは私が使った中で最も概念の明確なプログラミングモデルです」と述べています。

NVIDIAのエンジニアの評価はさらにストレートです。「GPT-5.5へのアクセスを失うと、まるで切断されたような気分だ」と。

Cursor共同創設者兼CEOのマイケル・トルールはこれについて、「GPT-5.5はGPT-5.4よりも賢く、粘り強く、複雑で長期のタスクでも途中で止まることなく続けられる——これこそエンジニアリング作業に最も必要なことだ」と補足しています。

03 知識作業：AIが初めて“コンピュータを使いこなす”

OSWorld-Verifiedのテストでは（モデルが実機操作を独立して行えるかを評価）、GPT-5.5の成功率は78.7%、GPT-5.4の75.0%、Claude Opus 4.7の78.0%を上回っています。

これはスクリーンショットの分析ではなく、実際の画面操作です：インターフェースの閲覧、クリック、入力、複数ツール間の切り替えを行い、タスクを完了させる様子です。GPT-5.5は、AIが初めて実際に同じコンピュータを共に使えることを実感させます。

財務モデリングのデモ動画

電信カスタマーサポートのワークフロー評価Tau2-benchでは、プロンプトなしの調整状態での正答率は98.0%、GPT-5.4は92.8%です。

これは、モデルがタスクの意図を十分に理解し、詳細なプロンプト設計なしで複雑な多段階対話を処理できることを意味します。

ツール検索能力では、GPT-5.5はBrowseCompテストで84.4%、GPT-5.5 Proは90.1%を記録し、複数情報源を横断して推論・情報統合を行う研究系タスクにおいても高い持続的検索・情報統合能力を示しています。

04 科学研究：新たな数学的証明の発見を支援

今回のリリースで、GPT-5.5の科学研究分野でのパフォーマンスは最も驚きの一つです。

従来、AIの研究支援は「補助ツール」として文献検索やコード作成、データ整理に留まっていましたが、今回は役割が一段前進し、よりコアな部分に関与し始めています：複雑な推論や新証明の発見です。

GeneBench（遺伝学と定量生物学の多段階データ解析評価）では、GPT-5.5は25.0%、GPT-5.4は19.0%の得点を獲得。これらのタスクは、科学者の数日分の作業に相当し、モデルはほぼ監督なしで誤りの可能性のあるデータの推論や隠れた交絡因子への対応、現代的な統計手法の適用を行います。

グラフの曲線を見ると、出力トークン数が増加するにつれて、GPT-5.5の得点向上はGPT-5.4を上回り、約15,000トークン付近で明確に差が開きます——これは、深い推論を必要とする長いタスクにおいて、GPT-5.5の優位性がタスクの複雑さとともに拡大することを示しています。

BixBench（実世界の生物情報学とデータ解析のベンチマーク）では、GPT-5.5は80.5%、GPT-5.4は74.0%を記録し、公開済みモデルの中で上位に位置します。

特に注目されるのは、カスタムツールフレームワークを備えたGPT-5.5の内部バージョンが、ラミ数に関する新しい数学的証明を発見し、形式証明ツールLeanで検証された事例です。ラミ数は組合せ数学の核心研究対象であり、その成果は非常に稀で、技術的難易度も高いです。これはAIがコードや解説を提供するだけでなく、実際に数学的証明を貢献した例です。

実用面でも説得力があります。Jackson研究所の免疫学教授Derya Unutmazは、GPT-5.5 Proを用いて62サンプル、約28,000遺伝子の遺伝子発現データセットを分析し、詳細な研究レポートを生成、重要な発見や研究課題を抽出しました——彼はこの作業には通常数か月かかると述べています。

ポズナン・アダム・ミツケヴィチ大学数学科の助教授Bartosz Naskręckiは、たった一つのプロンプトだけで、Codexを用いて11分で代数幾何学のアプリケーションを構築し、二次曲面の交線を可視化し、その曲線をWeylのモデルに変換しました。右側のリアルタイム表示の方程式係数は、後続の数学研究に直接利用可能です。プロンプトから実行可能な研究ツールまで、全てモデルが自立して完結しています。

Bartosz Naskręcki教授が作成した代数幾何学アプリのスクリーンショット——二次曲面の交差とWeylの方程式のリアルタイム計算インターフェース

Axiom Bioの共同創設者Brandon Whiteの評価はさらにストレートです。「OpenAIがこの勢いを維持すれば、年末までに薬物発見の基盤が変わるだろう」と。

05 推論効率：AIが初めて自らの基盤を最適化

今回のリリースで見逃されがちなポイントの一つですが、技術的に最も重要な進展かもしれません。

GPT-5.5はより大きく、より強力なモデルですが、実サービスでの1トークンあたりの遅延はGPT-5.4と同等に保たれています。より高い能力を持ちながら遅延を維持するために、OpenAIは推論システム全体を再設計し、その過程でCodexとGPT-5.5自体が直接最適化に関与しました。

Artificial Analysisのインテリジェンス指数グラフから直感的に理解できます：横軸は出力トークン総量（対数スケール）、縦軸は総合知能スコアです。GPT-5.5の曲線は、GPT-5.4やClaude Opus 4.7、Gemini 3.1 Pro Previewを圧倒的に上回るだけでなく、少ないトークン消費範囲で既に他モデルがより多くのトークンを必要とするスコアに到達しています——より高い能力、より低コスト、これが「効率向上」の直感的な証拠です。

Artificial Analysisのインテリジェンス指数折れ線グラフ

具体的には、負荷分散の課題です。従来はリクエストを一定数のブロックに分割しGPUの負荷を均一化していましたが、静的な分割はすべてのトラフィックパターンに最適ではありません。Codexは数週間の実運用データを分析し、独自のヒューリスティックアルゴリズムを作成、トークン生成速度を20%以上向上させました。

GPT-5.5はNVIDIAのGB200やGB300 NVL72システムと協調設計・訓練・展開を行っています。言い換えれば、この世代のモデルは自らの推論アーキテクチャの最適化に参加したのです——これは比喩ではなく、文字通り「AIが自分のシステムを改善した」のです。

06 サイバーセキュリティ：能力向上と管理強化の両立

GPT-5.5はサイバーセキュリティ能力も明確に向上しています。CyberGymのテストでは81.8%、GPT-5.4の79.0%、Claude Opus 4.7の73.1%。内部の「旗取り」（CTF）チャレンジでは88.1%、GPT-5.4は83.7%です。

CyberGymの棒グラフとCTFチャレンジの散布図

OpenAIは、GPT-5.5のサイバーセキュリティと生物・化学能力の評価を「緊急対応フレームワーク」下の「高」レベルとし、「重要」レベルには達していないとしていますが、前世代と比べて明らかに向上しています。同時に、新たに導入されたより厳格なリスク分類器は「一部のユーザーには最初不便に感じられるかもしれない」と認め、今後も調整を続けるとしています。

防御とアクセス制限のバランスを取るため、OpenAIは「サイバーセキュリティ信頼アクセス」プログラムを開始。条件を満たすセキュリティ研究者や重要インフラ防御者は、より緩やかなアクセス権を申請でき、高度なサイバーセキュリティ能力をより少ない摩擦で利用可能にします。

その背後にある論理は、サイバーセキュリティや生命科学に関する能力は、技術の普及がほぼ不可逆的な流れであることです。すべてを制限しようとするのではなく、むしろ防御に従事する人々に最先端のツールを優先的に提供する方が合理的です。要するに、「開放すべきかどうか」ではなく、「誰に先に使わせるか」が鍵なのです。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。