複雑なコマンドライン作業フローをテストするTerminal-Bench 2.0では、GPT-5.5は82.7%のスコアを獲得し、Claude Opus 4.7の69.4%を13ポイント以上上回っています;また、実際のコンピュータ操作をAIが独立して行うOSWorld-Verifiedでは成功率78.7%で人間の基準を超えています;さらに、44種類の職業知識作業を対象としたGDPvalでは、84.9%のタスクが業界の専門家レベルに達しています。
しかしながら、GPT-5.5の価格も明らかに上昇しています。
APIの価格は、入力毎百万Tokenあたり5ドル、出力30ドルで、GPT-5.4(入力2.50ドル、出力15ドル)の2倍ですが、公式はGPT-5.5が同じタスクを完了するために必要なToken数を大幅に削減しているため、総コストは必ずしも大きく上昇しないと強調しています。GPT-5.5 Pro APIの価格は、入力30ドル、出力180ドルです。バッチ処理や弾力的な価格設定は半額の割引を享受でき、標準価格の2.5倍の優先処理も提供されます。
Artificial Analysisのインテリジェンス指数グラフからも一目でわかります。横軸は出力Tokenの総量(対数スケール)、縦軸は総合知能スコアです。GPT-5.5の曲線は、GPT-5.4やClaude Opus 4.7、Gemini 3.1 Pro Previewを上回るだけでなく、Token消費が少ない範囲で既に他モデルがより多くのTokenを消費しないと到達できないスコアに達しています。より高い能力と低コストの両立、これが「効率向上」の直感的な証拠です。
GPT-5.5はサイバーセキュリティの能力も明確に向上しています。CyberGymのテストでは、GPT-5.5は81.8%、GPT-5.4は79.0%、Claude Opus 4.7は73.1%を記録。内部の「旗取り」(CTF)チャレンジでは、GPT-5.5は88.1%、GPT-5.4は83.7%です。
一文読解GPT-5.5:今日からOpenAIは「トークンを販売しない」
著者:李海倫,騰訊科技
現地時間4月23日、OpenAIは正式に新世代フラッグシップモデルGPT-5.5を発表し、公式はこれを「現実の仕事に向けた全く新しい知能層」と位置付け、全く新しいコンピュータ作業方式への重要な一歩としています。
今回の発表の核心は二つです。
一つは効率面の突破:同じ遅延で、モデルはより大きくなったのに速度は遅くならない。GPT-5.5のコンテキストウィンドウは100万Tokenに達し、これはGPT-5.4の能力向上だけではなく、効率面で同等の遅延下でより高い知能を実現したものです。
二つはGPT-5.5が訓練過程で自身の推論基盤の最適化に参加したこと。簡単に言えば、AIが初めて自分自身のパラメータ調整を学習したのです。
複雑なコマンドライン作業フローをテストするTerminal-Bench 2.0では、GPT-5.5は82.7%のスコアを獲得し、Claude Opus 4.7の69.4%を13ポイント以上上回っています;また、実際のコンピュータ操作をAIが独立して行うOSWorld-Verifiedでは成功率78.7%で人間の基準を超えています;さらに、44種類の職業知識作業を対象としたGDPvalでは、84.9%のタスクが業界の専門家レベルに達しています。
しかしながら、GPT-5.5の価格も明らかに上昇しています。
APIの価格は、入力毎百万Tokenあたり5ドル、出力30ドルで、GPT-5.4(入力2.50ドル、出力15ドル)の2倍ですが、公式はGPT-5.5が同じタスクを完了するために必要なToken数を大幅に削減しているため、総コストは必ずしも大きく上昇しないと強調しています。GPT-5.5 Pro APIの価格は、入力30ドル、出力180ドルです。バッチ処理や弾力的な価格設定は半額の割引を享受でき、標準価格の2.5倍の優先処理も提供されます。
ChatGPTでは、GPT-5.5は「GPT-5.5 Thinking」という形で順次導入され、以前のバージョンを置き換えつつあります。
新たな小さな工夫として、モデルは思考を始める前にまずアイデアの概要を提示し、ユーザーは実行中に随時会話を挿入して方向性を調整できるようになっています。
GPT-5.5の意義を一言でまとめると:従来のモデルは能力の集合体でしたが、GPT-5.5は計画、検証、継続的推進ができる作業システムに近づいています。
84.9%のタスクが専門家レベルに到達
図:GPT-5.5と各競合モデルのTerminal-Bench 2.0、GDPval、OSWorld-Verifiedなどの主要ベンチマークテストにおける比較
まず、モデルの実職場シナリオでのパフォーマンスを見てみましょう。OpenAIは「GDPval」という基準テストを用いています。これはモデルに一連の職業タスクを完了させるもので、44の職業シナリオをカバーし、財務モデリング、法律分析、データサイエンスレポート、運営計画などを含みます。
結果は、GPT-5.5が84.9%のタスクで業界の専門家レベルに達したか超えたことを示しています。対照的に、GPT-5.4は83.0%、Claude Opus 4.7は80.3%、Gemini 3.1 Proは67.3%です。
この差は総合点だけにとどまりません。表計算モデリングのタスクでは、GPT-5.5の内部テストで88.5%を記録し、投資銀行レベルのモデリングでもリードしています。早期テスターのフィードバックも一貫しており、GPT-5.5 Proの回答は、包括性、構造性、実用性の面でGPT-5.4 Proより明らかに向上しており、ビジネス、法律、教育、データサイエンス分野で特に顕著です。
数字だけを見ると麻痺しやすいですが、OpenAIは今回、自社の作業現場を公開して見せてくれました。
OpenAIによると、社内の85%以上の社員が毎週Codexを使用しており、財務、広報、マーケティング、製品、データサイエンスなど複数の部署で活用しています。広報チームはこれを使って6か月分の講演招待データを分析し、自動化された分類フローを構築。財務チームは24,771件のK-1税務フォームをレビューし、合計71,637ページを、昨年より2週間早く完了。マーケティング拡大チームは自動化された週次レポート生成により、各人が週に5~10時間を節約しています。
これはもはや実験室のデモではなく、日常の業務に浸透しています。
最強の自主プログラミングモデル
OpenAIは、GPT-5.5が現時点で最も強力な自主プログラミングモデルだと述べています。
Terminal-Bench 2.0(複雑なコマンドライン作業フローのテスト、計画・反復・ツール連携を必要とする)では、GPT-5.5は82.7%のスコアを獲得し、GPT-5.4の75.1%を約8ポイント上回り、同時にToken消費も少なくなっています。SWE-Bench Pro(実際のGitHub問題の一発解決能力を評価)では、GPT-5.5は58.6%を記録。内部のExpert-SWE評価(長期のプログラミングタスク、中位の人間作業時間は約20時間)でも、GPT-5.5はGPT-5.4を超えています。
図:Terminal-Bench 2.0とExpert-SWEの散布図
CodexはGPT-5.5の推進により、単一のプロンプトからコード生成、機能テスト、ビジュアルデバッグまでの一連の開発工程を自立して完結できるようになっています。
OpenAIの公式デモ例では、NASAの実データを用いた宇宙ミッションのアプリケーションが示されており、3Dインタラクション操作や軌道力学のシミュレーションは物理的に正確に行われ、地震追跡器はリアルタイムデータを取り込み可視化し、外部API呼び出しや動的データ処理、リアルタイムレンダリングの能力も備えています。
フィードバックについても、Everyの創業者兼CEOのDan Shipperは次のように述べています。彼は以前、リリース後のバグに遭遇し、数日間自力で解決できず、最終的に最強のエンジニアにシステムの一部を書き直してもらった経験があります。GPT-5.5を試したところ、バグの状態にモデルを戻し、エンジニアと同じ解決策を自動的に導き出せるか試したところ、GPT-5.4はできず、GPT-5.5はできたと評価しています。「これは私が使った中で最も概念の明確なプログラミングモデルです」と。
NVIDIAのエンジニアの評価も率直です。「GPT-5.5のアクセス権を失うと、まるで切断されたような気分になる」と。
Cursor共同創設者兼CEOのMichael Truellは、これについて次のように付け加えています。GPT-5.5はGPT-5.4よりも賢く、粘り強く、長期の複雑なタスクでも途中で止まることなく持続できる——これこそがエンジニアリング作業に最も必要なことです。
知識作業:AIが初めて“コンピュータを使う”ことに成功
OSWorld-Verifiedのテストでは(モデルが実際のコンピュータ環境を独立操作できるかを評価)、GPT-5.5の成功率は78.7%、GPT-5.4の75.0%、Claude Opus 4.7の78.0%を上回っています。
これはスクリーンショットの分析ではなく、実際の画面操作です。インターフェースの閲覧、クリック、入力、複数ツール間の切り替えを行いながらタスクを完了させる様子は、AIが初めて本当に同じコンピュータを共に使えることを示しています。
電気通信のカスタマーサポート作業フローのTau2-benchでは、プロンプトなしの調整で正確率98.0%、GPT-5.4は92.8%です。
これは、モデルがタスクの意図を十分に理解し、複雑な多段階の対話フローを設計されたプロンプトなしで処理できることを意味します。
ツール検索能力においても、GPT-5.5はBrowseCompテストで84.4%、GPT-5.5 Proは90.1%を記録し、複数の情報源を横断して推論・情報統合を行う研究系タスクにおいても、持続的な検索と情報整理能力を示しています。
科学研究:新たな数学的証明の発見を支援
今回の発表で最も驚きの一つは、GPT-5.5の研究分野でのパフォーマンスです。
従来、AIの研究支援は「補助ツール」として、文献検索やコード作成、データ整理にとどまっていましたが、今回はその役割が一歩前進し、より核心的な部分に関与し始めています。複雑な推論や新証明の発見にまで踏み込んでいます。
GeneBench(遺伝学と定量生物学の多段階データ解析評価)では、GPT-5.5は25.0%、GPT-5.4は19.0%を記録。これらのタスクは、科学者の数日分の作業に相当し、モデルはほぼ監督なしで誤ったデータの推論や隠れた交絡因子への対応、現代的な統計手法の適用を行います。
グラフの曲線を見ると、出力Token数が増加するにつれて、GPT-5.5のスコア向上はGPT-5.4を常に上回り、約15,000Token付近で明確に差が開きます。これは、深い推論を必要とする長いタスクにおいて、GPT-5.5の優位性がより顕著になることを示しています。
BixBench(実世界の生物情報学とデータ解析の基準テスト)では、GPT-5.5は80.5%、GPT-5.4は74.0%を記録し、公開済みモデルの中で上位に位置しています。
特に注目すべきは、カスタムツールフレームワークを備えたGPT-5.5の内部バージョンが、ラマズ数に関する新しい数学的証明を発見し、形式証明ツールLeanで検証された事例です。ラマズ数は組合せ数学の核心研究対象であり、その成果は非常に稀で、技術的難易度も高いです。これはAIがコードや解説を提供するだけでなく、実際に数学的証明を貢献した例です。
実用面でも説得力があります。Jackson研究所の免疫学教授Derya Unutmazは、GPT-5.5 Proを用いて62サンプル、約28,000遺伝子の遺伝子発現データセットを分析し、詳細な研究報告を作成、重要な発見や研究課題を抽出しました。彼は、「この作業は通常、数か月かかる」と述べています。
ポーランドのアダム・ミツケヴィチ大学数学科の助教授Bartosz Naskręckiは、たった一つのプロンプトだけで、CodexのGPT-5.5を用いて、二次曲面の交線を可視化し、ウェルズトラスモデルに変換する代数幾何学のアプリを11分で構築しました。方程式の係数もリアルタイムで表示され、後の数学研究に直接利用可能です。
図:Bartosz Naskręcki教授が構築した代数幾何学アプリのスクリーンショット——二次曲面の交差とウェルズトラス方程式のリアルタイム計算インターフェース
Axiom Bioの共同創始者Brandon Whiteは、次のようにコメントしています。「OpenAIがこの勢いを維持すれば、年末までに医薬品発見の基盤が変わるだろう」と。
推論効率:AIが自ら基盤インフラを最適化
今回の発表で見落とされがちなポイントの一つは、しかし最も技術的に重要な進展かもしれません。
GPT-5.5はより大きく、より強力なモデルですが、実サービスにおける1Tokenあたりの遅延はGPT-5.4と変わりません。より高い能力を維持しつつ遅延を同じにするため、OpenAIは推論システム全体を再設計し、その過程でCodexとGPT-5.5自身が直接最適化に関与しました。
Artificial Analysisのインテリジェンス指数グラフからも一目でわかります。横軸は出力Tokenの総量(対数スケール)、縦軸は総合知能スコアです。GPT-5.5の曲線は、GPT-5.4やClaude Opus 4.7、Gemini 3.1 Pro Previewを上回るだけでなく、Token消費が少ない範囲で既に他モデルがより多くのTokenを消費しないと到達できないスコアに達しています。より高い能力と低コストの両立、これが「効率向上」の直感的な証拠です。
図:Artificial Analysisのインテリジェンス指数折れ線グラフ
具体的には、負荷分散の問題に直面しています。従来はリクエストを一定数のブロックに分割しGPUの負荷を均一化していましたが、静的なブロック分割はすべてのトラフィックに最適ではありません。Codexは数週間の実運用データを分析し、独自のヒューリスティックアルゴリズムを作成、Token生成速度を20%以上向上させました。
GPT-5.5はNVIDIAのGB200やGB300 NVL72システムと協調設計・訓練・展開されており、つまりこの世代のモデルは自らの推論アーキテクチャの最適化にも関与しています——これは比喩ではなく、字義通り「AIが自分のシステムを改善した」のです。
サイバーセキュリティ:能力向上と管理強化
GPT-5.5はサイバーセキュリティの能力も明確に向上しています。CyberGymのテストでは、GPT-5.5は81.8%、GPT-5.4は79.0%、Claude Opus 4.7は73.1%を記録。内部の「旗取り」(CTF)チャレンジでは、GPT-5.5は88.1%、GPT-5.4は83.7%です。
図:CyberGymの棒グラフとCTFチャレンジの散布図
OpenAIは、GPT-5.5のサイバーセキュリティと生物・化学能力の評価を、「緊急対応フレームワーク」下の「高」レベルに設定しています。まだ「重要」レベルには達していませんが、前世代と比べて明らかに向上しています。同時に、新たに導入されたより厳格なリスク分類器については、「一部のユーザーには最初、やや不便に感じられるかもしれない」と認め、今後も調整を続けるとしています。
防御とアクセス制限のバランスを取るため、OpenAIは「ネットワークセキュリティ信頼アクセス」プログラムを開始。条件を満たすセキュリティ研究者や重要インフラの防御者は、より緩やかなアクセス権を申請でき、高度なネットワークセキュリティ能力をより少ない摩擦で利用可能にします。
この背景には、能力の拡散は不可逆の流れであり、制限よりもむしろ防御者が攻撃者より先に最強のツールを使えるようにする方が現実的な道だ、という考えがあります。