伝聞からわずか2日後の現地時間3月5日、OpenAIは正式にGPT-5.4をリリースしました。今回のモデル更新は、現在最もホットなAIエージェントの方向性を主軸としています。
GPT-5.4以前の大規模モデルの能力の境界は一言で表すと、「やり方は教えられるが、自分ではできない」というものでした。
競合分析を頼めば詳細なレポートを出し、Excelの整理を頼めばPythonコードを書いて自動化し、航空券の予約を頼めばどのサイトに行き、どのボタンをクリックすればいいかを一歩一歩教えてくれる。
その間の壁は、「コンピュータ操作」と呼ばれます。
GPT-5.4は、OpenAI初のこの壁を打ち破った汎用モデルです。
GPT-5.4の従来モデルに対する向上|画像出典:OpenAI
スクリーンショットを認識し、マウスやキーボードの指示を出し、異なるアプリ間で複数の作業フローを実行できる。OpenAI自身の言葉を借りれば、「これまでで最も強力かつ効率的な最先端モデル」であり、専門的な作業に最適化されたものだとしています。
より技術的に言えば、GPT-5.4は最大100万トークンのコンテキストウィンドウをサポートし、Playwrightなどのライブラリを呼び出してブラウザやデスクトップアプリを直接操作可能です。
これにより、「タスクに関する対話」ではなく、「タスクそのもの」を処理することが可能になったのです。
01 OpenAIの布石
OpenAIの最近数ヶ月の動きを追っていると、GPT-5.4は突如現れた製品ではなく、明確な戦略の一環としての最新の一手であることがわかります。
わずか2週間前、OpenAIはGPT-5.3-Codexをリリースし、Codexを「コードを書けるエージェント」から「ほぼすべての開発者のPC上作業をこなせるエージェント」へとアップグレードし、SWE-Bench ProやTerminal-Benchで業界基準を更新しました。
同時に、OpenAIは企業向けの「Frontier」プラットフォームを展開し、HP、Intuit、Uberが早期ユーザーとなっています。
GPT-5.4は表計算の入力において、明らかにバージョン5.2よりも賢くなっています|画像出典:OpenAI
さらに遡ると、3月2日にOpenAIとAWSは従来の38億ドルの協力関係を拡大し、1000億ドル超の規模にし、8年間の契約としました。AWSはOpenAI Frontierプラットフォームの独占的サードパーティクラウド配信者となります。この規模自体が一つのシグナルです。
1100億ドルの最新資金調達ラウンドは、Amazon、SoftBank、Nvidiaがそれぞれ数百億ドルを出資し、同時期に実現しました。
これは、「良い製品を作る」だけの企業ではなく、「企業向けAIエージェント市場を制覇する」ために全力を尽くす企業の姿です。
GPT-5.4のネイティブなコンピュータ操作能力は、この戦いの重要な武器となっています。
02 本当に使えるのか?
発表会のデモはいつも素晴らしいですが、実際のパフォーマンスが問題です。
金融テクノロジー企業Walleye Capitalは内部テストで、GPT-5.4がExcelの財務モデル評価において正確性を30ポイント向上させ、シナリオ分析の自動化を大幅に加速したと報告しています。
人材評価プラットフォームMercorのCEOは、「これまで試した中で最も優れたモデル」と直接称賛し、スライド作成や財務モデリング、法律分析など長期的なタスクで優れたパフォーマンスを示したと述べています。
Codexを日常的に使う独立系開発者は、よりリアルな評価をこう述べています。「GPT-5.4は私のCodexでの新しい日常のドライバーです。思考の仕方が人間に近く、5.3ほど技術的な詳細にこだわっていません。」ただし、彼は一言付け加えています。「注意してください。何度かモデルが誤ったタスクを実行し、その事実を隠すケースに遭遇しています。」
GPT-5.4の操作とビジュアル面の向上|画像出典:OpenAI
この細部は興味深いポイントです。
ベンチマークデータもこの能力向上を裏付けています。報告によると、GPT-5.4はGDPvalベンチマークで、一般的なオフィスワーカーの83%以上のパフォーマンスを超えたとのことです。この数字は驚きですが、問題は「何人を超えるか」ではなく、「どのタスクで人に代われるか」です。
ただし、エジンバラ大学情報学院のJeff Dalton博士は、現段階のデモには十分な詳細な評価証拠がなく、その大きな主張を裏付けるには不十分だと指摘しています。能力は確かにあるが、その境界線はまだ多くの独立した検証を必要としています。
03 エージェントの戦場、安全地帯はない
もしGPT-5.4がOpenAIのエージェント野心を象徴するなら、競合他社も黙ってはいません。
AnthropicのClaude 3.7 Sonnetは今年2月に「コンピュータ使用」機能を導入し、複雑なタスクに特化したハイブリッド推論モデルとして位置付けています。
GoogleのGemini 2.0シリーズも「Agentic」能力の強化を続けており、Project MarinerはChromeブラウザ内で複数の操作を自律的に完結させることが可能です。
しかし、GPT-5.4と競合製品の本質的な違いは、OpenAIが初めてコンピュータ操作能力を汎用モデルに内蔵させた点にあります。これは単なるツールやAPI呼び出しではなく、モデル自体にこの能力が備わっているのです。
この「ネイティブ」という言葉がエンジニアリングの観点で何を意味するかと言えば、要するに遅延の低減、自然なタスク連携、そして「接着剤コード」の削減です。企業がエージェントを素早く導入したい場合、この違いは導入コストに直結します。
OpenAIはまた、GPT-5.4がMicrosoft ExcelやGoogle Sheetsに直接接続でき、セル単位での粒度分析や自動化操作を行えると発表しました。この一歩は、明らかに企業の意思決定の核心部分を狙ったものです。
エージェントの戦場は、常に「誰が速いか」ではなく、「誰が最も早く企業のワークフローに組み込めるか」、そして「抜き差しできない存在になれるか」の勝負です。
技術発表会はいつも熱狂的ですが、真の試練は第91日目です。その時、熱気が冷め、ユーザーが実際の業務シーンでこのツールを使い始めたときに、スクリーンショットを確実に捉え、正確にボタンを押し、静かにタスクを完了させ、結果を返せるかどうかです。
「誤りを隠す」ことを指摘した開発者の言葉は、今のところ私が見た中で最も警戒すべき一言です。
AIエージェントの能力の天井は、「何ができるか」ではなく、「信頼できるかどうか」にあります。
信頼こそが、このエージェント戦争の真の通貨なのです。
9.85M 人気度
4.61M 人気度
11.86K 人気度
40.67K 人気度
199.34K 人気度
GPT-5.4、「Agent 原生」大模型が登場?
伝聞からわずか2日後の現地時間3月5日、OpenAIは正式にGPT-5.4をリリースしました。今回のモデル更新は、現在最もホットなAIエージェントの方向性を主軸としています。
GPT-5.4以前の大規模モデルの能力の境界は一言で表すと、「やり方は教えられるが、自分ではできない」というものでした。
競合分析を頼めば詳細なレポートを出し、Excelの整理を頼めばPythonコードを書いて自動化し、航空券の予約を頼めばどのサイトに行き、どのボタンをクリックすればいいかを一歩一歩教えてくれる。
その間の壁は、「コンピュータ操作」と呼ばれます。
GPT-5.4は、OpenAI初のこの壁を打ち破った汎用モデルです。
GPT-5.4の従来モデルに対する向上|画像出典:OpenAI
スクリーンショットを認識し、マウスやキーボードの指示を出し、異なるアプリ間で複数の作業フローを実行できる。OpenAI自身の言葉を借りれば、「これまでで最も強力かつ効率的な最先端モデル」であり、専門的な作業に最適化されたものだとしています。
より技術的に言えば、GPT-5.4は最大100万トークンのコンテキストウィンドウをサポートし、Playwrightなどのライブラリを呼び出してブラウザやデスクトップアプリを直接操作可能です。
これにより、「タスクに関する対話」ではなく、「タスクそのもの」を処理することが可能になったのです。
01 OpenAIの布石
OpenAIの最近数ヶ月の動きを追っていると、GPT-5.4は突如現れた製品ではなく、明確な戦略の一環としての最新の一手であることがわかります。
わずか2週間前、OpenAIはGPT-5.3-Codexをリリースし、Codexを「コードを書けるエージェント」から「ほぼすべての開発者のPC上作業をこなせるエージェント」へとアップグレードし、SWE-Bench ProやTerminal-Benchで業界基準を更新しました。
同時に、OpenAIは企業向けの「Frontier」プラットフォームを展開し、HP、Intuit、Uberが早期ユーザーとなっています。
GPT-5.4は表計算の入力において、明らかにバージョン5.2よりも賢くなっています|画像出典:OpenAI
さらに遡ると、3月2日にOpenAIとAWSは従来の38億ドルの協力関係を拡大し、1000億ドル超の規模にし、8年間の契約としました。AWSはOpenAI Frontierプラットフォームの独占的サードパーティクラウド配信者となります。この規模自体が一つのシグナルです。
1100億ドルの最新資金調達ラウンドは、Amazon、SoftBank、Nvidiaがそれぞれ数百億ドルを出資し、同時期に実現しました。
これは、「良い製品を作る」だけの企業ではなく、「企業向けAIエージェント市場を制覇する」ために全力を尽くす企業の姿です。
GPT-5.4のネイティブなコンピュータ操作能力は、この戦いの重要な武器となっています。
02 本当に使えるのか?
発表会のデモはいつも素晴らしいですが、実際のパフォーマンスが問題です。
金融テクノロジー企業Walleye Capitalは内部テストで、GPT-5.4がExcelの財務モデル評価において正確性を30ポイント向上させ、シナリオ分析の自動化を大幅に加速したと報告しています。
人材評価プラットフォームMercorのCEOは、「これまで試した中で最も優れたモデル」と直接称賛し、スライド作成や財務モデリング、法律分析など長期的なタスクで優れたパフォーマンスを示したと述べています。
Codexを日常的に使う独立系開発者は、よりリアルな評価をこう述べています。「GPT-5.4は私のCodexでの新しい日常のドライバーです。思考の仕方が人間に近く、5.3ほど技術的な詳細にこだわっていません。」ただし、彼は一言付け加えています。「注意してください。何度かモデルが誤ったタスクを実行し、その事実を隠すケースに遭遇しています。」
GPT-5.4の操作とビジュアル面の向上|画像出典:OpenAI
この細部は興味深いポイントです。
ベンチマークデータもこの能力向上を裏付けています。報告によると、GPT-5.4はGDPvalベンチマークで、一般的なオフィスワーカーの83%以上のパフォーマンスを超えたとのことです。この数字は驚きですが、問題は「何人を超えるか」ではなく、「どのタスクで人に代われるか」です。
ただし、エジンバラ大学情報学院のJeff Dalton博士は、現段階のデモには十分な詳細な評価証拠がなく、その大きな主張を裏付けるには不十分だと指摘しています。能力は確かにあるが、その境界線はまだ多くの独立した検証を必要としています。
03 エージェントの戦場、安全地帯はない
もしGPT-5.4がOpenAIのエージェント野心を象徴するなら、競合他社も黙ってはいません。
AnthropicのClaude 3.7 Sonnetは今年2月に「コンピュータ使用」機能を導入し、複雑なタスクに特化したハイブリッド推論モデルとして位置付けています。
GoogleのGemini 2.0シリーズも「Agentic」能力の強化を続けており、Project MarinerはChromeブラウザ内で複数の操作を自律的に完結させることが可能です。
しかし、GPT-5.4と競合製品の本質的な違いは、OpenAIが初めてコンピュータ操作能力を汎用モデルに内蔵させた点にあります。これは単なるツールやAPI呼び出しではなく、モデル自体にこの能力が備わっているのです。
この「ネイティブ」という言葉がエンジニアリングの観点で何を意味するかと言えば、要するに遅延の低減、自然なタスク連携、そして「接着剤コード」の削減です。企業がエージェントを素早く導入したい場合、この違いは導入コストに直結します。
OpenAIはまた、GPT-5.4がMicrosoft ExcelやGoogle Sheetsに直接接続でき、セル単位での粒度分析や自動化操作を行えると発表しました。この一歩は、明らかに企業の意思決定の核心部分を狙ったものです。
エージェントの戦場は、常に「誰が速いか」ではなく、「誰が最も早く企業のワークフローに組み込めるか」、そして「抜き差しできない存在になれるか」の勝負です。
技術発表会はいつも熱狂的ですが、真の試練は第91日目です。その時、熱気が冷め、ユーザーが実際の業務シーンでこのツールを使い始めたときに、スクリーンショットを確実に捉え、正確にボタンを押し、静かにタスクを完了させ、結果を返せるかどうかです。
「誤りを隠す」ことを指摘した開発者の言葉は、今のところ私が見た中で最も警戒すべき一言です。
AIエージェントの能力の天井は、「何ができるか」ではなく、「信頼できるかどうか」にあります。
信頼こそが、このエージェント戦争の真の通貨なのです。