GPT-5.4、「Agent 原生」大模型が登場?

robot
概要作成中

OpenAI ついにその真意を理解した。

噂が流れてからわずか2日後、現地時間3月5日にOpenAIは正式にGPT-5.4をリリースした。そして今回のモデルアップデートの主軸は、今最もホットなAIエージェントの方向性にある。

GPT-5.4以前の大規模モデルの能力の境界は、一言で表すと「やり方は教えられるが、自分ではできない」だった。

競合分析を頼めば詳細なレポートを出し、Excelの整理を頼めばPythonコードを書いて自分で動かし、航空券の予約を頼めばどのサイトに行き、どのボタンを押すかを一つ一つ教えてくれる。

その壁の向こう側、呼ばれるのは「コンピュータ操作」

GPT-5.4は、OpenAIとして初めてこの壁を打ち破った汎用モデルだ。

GPT-5.4と従来モデルの比較|画像出典:OpenAI

スクリーンショットから画面内容を認識し、マウスやキーボードの操作指示を出し、異なるアプリ間で複数の作業フローを実行できる。OpenAI自身の言葉を借りれば、「これまでで最も専門的な仕事に対して最も強力で効率的な最先端モデル」だという。

より技術的に言えば、GPT-5.4は最大100万トークンのコンテキストウィンドウをサポートし、Playwrightなどのライブラリを呼び出してブラウザやデスクトップアプリを直接操作できる。

これにより、「タスクに関する対話」ではなく、「タスクそのもの」を処理できるようになった。

01 OpenAIの布石

もしあなたが最近数ヶ月のOpenAIの動きを追っているなら、GPT-5.4は突如現れた製品ではなく、明確な戦略の一環としての最新の一手であることに気づくだろう。

2週間前、OpenAIはGPT-5.3-Codexをリリースし、「コードを書けるエージェント」から「ほぼすべての開発者のPC上の作業をこなせるエージェント」へと進化させ、SWE-Bench ProやTerminal-Benchで業界基準を更新した。

同時に、OpenAIは企業向けの「Frontier」プラットフォームを発表し、HP、Intuit、Uberなどが早期ユーザーとなっている。

GPT-5.4は表計算の入力においても5.2より賢くなっている|画像出典:OpenAI

さらに遡ると、3月2日にはOpenAIとAWSが既存の38億ドルの協力関係を拡大し、1000億ドル超にまで増額、8年間の契約とし、AWSはOpenAI Frontierプラットフォームの独占的サードパーティクラウド配信者となった。この規模の資金調達は一つのシグナルだ。

1100億ドルの最新資金調達ラウンドは、Amazon、SoftBank、Nvidia各社が数百億ドルを出資し成立した。

これは「良い製品を作る」だけの企業ではなく、「企業向けAIエージェント市場を制覇する」ために全力を尽くす企業の姿だ。

GPT-5.4のネイティブなコンピュータ操作能力は、そのこの戦いの重要な武器となる。

02 本当に使えるのか?

発表会のデモはいつも華やかだが、実際のパフォーマンスはどうか。

金融テクノロジー企業Walleye Capitalは内部テストで、GPT-5.4がExcelの財務モデル評価において正確性を30ポイント向上させ、シナリオ分析の自動化を大幅に加速したと報告している。

人材評価プラットフォームMercorのCEOは、「これまで試した中で最も優れたモデル」と直言し、スライド作成、財務モデリング、法務分析など長期的なタスクで優れたパフォーマンスを示した。

Codexを日常的に使う独立系開発者は、よりリアルな評価をこう述べている:「GPT-5.4は私のCodexの新しい日常ドライバーです。思考の仕方が人間に近く、5.3ほど技術的な詳細にこだわらなくなった。」ただし、彼は一言付け加えた——「注意が必要です。モデルがタスクを誤って実行し、その事実を隠すケースに何度か遭遇したことがあります。」

この細部は興味深い。

ベンチマークデータもこの能力向上を裏付けている。報告によると、GPT-5.4はGDPvalベンチマークで83%以上の一般的なオフィスワーカーを超えるパフォーマンスを示した。この数字は衝撃的だが、問題は「何人を超えるか」ではなく、「どのタスクで人間に代われるか」だ。

ただし、エジンバラ大学情報学院のJeff Dalton博士は、現状のデモにはその壮大な主張を裏付ける十分な詳細評価証拠がほとんどないと指摘している。能力は確かにあるが、その境界線はまだ不明で、さらなる独立検証が必要だ。

03 エージェントの戦場には安全地帯はない

もしGPT-5.4がOpenAIのエージェント野心を象徴するなら、競合他社も黙ってはいない。

AnthropicのClaude 3.7 Sonnetは今年2月に「コンピュータ使用」機能をリリースし、複雑なタスク向けのハイブリッド推論モデルとして位置付けている。

GoogleのGemini 2.0シリーズも「エージェント的」能力を強化し、Project MarinerはChromeブラウザ内で複数ステップの操作を自律的に完結できる。

しかし、GPT-5.4と競合製品の本質的な違いは、それがOpenAI初の、コンピュータ操作能力を内蔵した汎用モデルである点だ——単なるツールやAPI呼び出しではなく、モデル自体にこの能力が備わっている。

この「ネイティブ」という言葉がエンジニアリング的に何を意味するかと言えば、要するに遅延の低減、自然なタスク連携、そして「接着剤コード」の削減だ。企業が素早くエージェントを導入したい場合、この違いは導入コストに直結する。

OpenAIはさらに、GPT-5.4がMicrosoft ExcelやGoogle Sheetsに直接接続でき、セル単位での粒度分析や自動化操作を可能にすると発表した。この一歩は、明らかに企業の意思決定の核心部分を狙ったものだ。

エージェントの戦場は、速さではなく、いかに自社のワークフローに最も早く組み込み、「抜き差しできない存在」になれるかの勝負だ。

技術発表会はいつも熱狂的だが、真の試練は第91日——その時、熱気が冷め、ユーザーが実際の業務シーンでこのツールを使い始めたときに、そのスクリーンショットを確実に捉え、正確にボタンを押し、静かにタスクを完遂し、結果を返せるかどうかだ。

その開発者が言った「誤りを隠す」行為は、私が今まで見た中で最も警戒すべき一言だ。

AIエージェントの能力の天井は、「何ができるか」ではなく、「信頼できるかどうか」だ

信頼こそが、このエージェント戦争の真の通貨だ

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • 人気の Gate Fun

    もっと見る
  • 時価総額:$0.1保有者数:1
    0.00%
  • 時価総額:$2.47K保有者数:1
    0.00%
  • 時価総額:$2.49K保有者数:1
    0.13%
  • 時価総額:$2.47K保有者数:1
    0.00%
  • 時価総額:$0.1保有者数:2
    0.00%
  • ピン