注:AGI(Artificial General Intelligence)とは、汎用人工知能のことで、ほとんどの認知タスクにおいて、人間と同等、あるいは人間を上回る能力を備えたAIシステムを指します。現在の「専用AI」(画像認識、推薦アルゴリズムなど)とは異なり、AGIはタスクをまたぐ汎用性と移植性を重視します。
The Informationの記事によれば、あなたたちは「Spud」の事前学習(pre-training)を完了したそうです。さらにSam AltmanもOpenAIの社員に対して、数週間以内に非常に強いモデルが見られるはずだと伝えたとも言われています。それは数週間前の話です。チーム内部の見方では、それが本当に経済を加速させる可能性があり、多くの人が想像しているよりも進みが速いかもしれない。
OpenAI共同創設者の最新インタビュー:Sora終了後、ChatGPTの次の一歩は何ですか?
動画タイトル:OpenAIの社長グレッグ・ブロックマン:AI戦略、AGI、そしてスーパーアプリ
動画投稿者:Alex Kantrowitz
翻訳:Peggy、BlockBeats
編集者の注:本記事はOpenAIの社長兼共同創業者であるGreg BrockmanがBig Technology Podcastで行った対談を翻訳したものです。この番組は長年にわたり、AI、テクノロジー産業、そしてビジネス構造の変化を追い続けており、シリコンバレーの最前線での判断を見極める重要な窓口です。
この対談では、Brockmanはモデルの能力そのものにとどまらず、問題をさらに先へと進めています。つまり、AIの能力がすでにほぼ検証されている中で、業界は次にどのような道を選び、製品の形をどう作り替え、その結果として生じるシステム全体への影響をどう受け止めるのか。対談は、OpenAIのプロダクト戦略、近日リリースされる「スーパーアプリ」、そしてAIが「飛躍(テイクオフ)」の段階に入るという見立てをめぐって展開されました。
この対談は、主に3つの観点から理解できます。
第一に、進むべき道の収束です。
動画生成から推論モデルへ、複数路線の並走から能動的な取捨選択へ。OpenAIの選択は単なる技術的な優劣判断ではなく、現実の制約への応答です――計算資源が核心的なボトルネックになっているからです。資源が限られる前提のもとで、技術ルートは次の2つの方向に収束し始めています。すなわち、パーソナルアシスタントと複雑な問題の解決です。これは同時に、AIの競争ロジックが「何ができるか」から「まず何をやるか」へと移っていることを意味します。
第二に、プロダクト形態の再構築です。
「スーパーアプリ」の提起は、突き詰めればプロダクト形態の飛躍です。AIはもはやバラバラのツールの集合ではなく、統一された入口になります。文脈を理解し、ツールを呼び出し、タスクを実行し、そしてさまざまな場面で記憶を継続的に蓄積するのです。ChatGPTからCodexへと、AIは徐々に仕事の一連のワークフローを引き受けつつあります。人間の役割もまた、実行者からディスパッチャーへと変わります――目標を設定し、タスクを割り当て、監督する存在へ。
第三に、テンポの転換です。
過去2年が能力の上り坂の段階だとするなら、いま起きているのは「飛躍(テイクオフ)」です。ひとつには、モデル能力が「仕事の約20%を補助する」から「タスクの約80%をカバーする」へと跳ね上がり、ワークフローの再構築を直接的に引き起こしています。もうひとつには、AIが自らの進化に関与している(AIでAIを最適化)ことに加え、チップ、アプリ、企業側の協調が重なり、継続的に加速するクローズドループが形成されています。AIはもはや単発の技術ではなく、経済成長を押し進めるための重要なエンジンになりつつあります。
しかし同時に、別の種類の課題も同時に浮上しています。人々の不信、雇用の不確実性、データセンターがもたらす論争、安全とガバナンスの境界です。これに対するBrockmanの答えは、必ずしも技術の内部に完全に閉じているわけではありません。彼はむしろ次の2点を強調します。第一に、リスクは「集中制御」だけでは解決できず、AIの周りに電力システムのような社会インフラを築く必要があること。第二に、個人の能力が変化していること――本当に重要なのは「ツールを使えるかどうか」ではなく、「AIを使って自分の目標を達成できるかどうか」です。
もし過去の問いが「AIは何ができるのか」だったのなら、いまの問いは「AIが大半のことをあなたの代わりにやり始めたとき、あなたはいったい何をする必要があるのか」に変わっています。
以下は原文の内容(読みやすさのために、原内容を一部再編)です:
TL;DR
**AGIは「道筋が明確」な段階に入っています:**Greg Brockman(OpenAIの共同創業者)は、GPTベースの推論モデルにはAGIへの明確なルートがあり、数年以内の実現が見込める一方で、その形態は「均一ではない(jagged)」になると考えています。
**戦略の収束:多線探索から2つの中核アプリへ:**計算資源の制約下で、OpenAIは「パーソナルアシスタント」と「複雑な問題の解決」にリソースを集中させ、すべての方向性を同時に推進するのではなく(動画生成のように)、そこに賭けます。
**「スーパーアプリ」はAIの入口形態になる:**チャット、プログラミング、ブラウザ、そしてナレッジワークは、ひとつの統一システムに統合されます。AIはツールから「実行レイヤー」へと変わり、ユーザーは「ディスパッチャー」へと移行します。
**重要な転換:AIが仕事の流れを補助するのではなく引き継ぎ始める:**モデル能力は「タスクの20%をこなす」から「80%を任せられる」へと跳ね上がり、個人と企業が仕事の進め方を再構築することを迫ります。
**計算資源が核心的なボトルネックであり、競争の焦点にもなる:**AIの需要は供給を大きく上回ります。今後の制約はモデル能力ではなく、計算資源であり、データセンターとインフラが重要な変数になります。
**AIの「飛躍(takeoff)」が起きつつある:**技術の自己加速(AIでAIを最適化)が、産業協調(チップ、アプリ、企業)と重なり、AIがツールから経済成長エンジンへと移行することを後押しします。
**最大のリスクは技術ではなく、ガバナンスと使い方にある:**安全性の問題は単一主体では解決できず、オープンなエコシステムと社会インフラが共同で受け止める必要があります。
**個人の中核能力が変化している:**将来の競争力は「実行」ではなく、「目標設定+AIシステムの管理」にあります。AIを能動的に使うことが基礎能力になります。
対談の整理:
Alex(司会者):
今日は、OpenAIの共同創業者兼社長のGreg Brockmanをお招きして、AIの最大のポテンシャルの機会、OpenAIがそれらの機会をどう掴むのか、そして「スーパーアプリ」の構想について話していきます。Gregは今日、こちらの収録スタジオにも来ています。
Greg Brockman(OpenAI共同創業者&社長):
あなたに会えて嬉しいです。お招きいただきありがとうございます。
なぜSoraを停止するのか?計算資源が足りない
Alex:
今のこのタイミングはとても興味深いですね。OpenAIは動画生成の推進を一時停止し、リソースを「スーパーアプリ」に集中しています――それは商業とプログラミングのシーンを統合するものです。外から見ると(僕自身を含めて)、OpenAIはコンシューマー側で先行しているように見えます。ところが今、リソース配分を調整しているようにも見える。いったい何が起きているんでしょうか?
Greg Brockman:
ここしばらくの間、私たちはこの深層学習の技術を開発してきました。これが本当に、私たちがずっと想定していたような“前向きな影響”を生み出せるのか――つまり、人々を本当に助けて生活を改善するようなアプリを構築するのに使えるのか――それを検証したかったんです。
同時に、もう一つのラインも進めていました。この技術を実際に展開することです。一方では事業を動かすため、もう一方では、技術が本当に成熟する瞬間に備えて、現実世界での実戦的な経験を前もって積み重ねるためです。
そして現在、私たちは新しい段階に来ています。この技術が実際に成立することは確かに見えてきました。今は「ベンチマーク」や、いくつかの抽象度の高い能力のデモから、新しい段階――それを現実世界に持ち込み、実際の仕事に参加させ、ユーザーからのフィードバックを通じて進化を続けること――へ移行しているところです。
なので、私は今回の変化を、技術段階の変化によって引き起こされる戦略転換だと理解するのがより近いと思っています。
これは「コンシューマー側から企業側へ移る」という話ではありません。より正確に言うと、限られた資源のもとで、私たちはどのアプリを最優先でやるべきか、という問題を問うています。なぜなら、何もかもを同時にやることはできないからです。
どのアプリが本当に実装できて、互いに協調し、実際のインパクトをもたらすのか?もし全方向を列挙すると、コンシューマー側はたとえば多くに分解できます。パーソナルアシスタント。あなたを本当に理解し、あなたの目標と一致し、人生の目標を達成する助けになるシステムです。あるいは創作やエンターテインメント。ほかにもたくさん可能性があります。一方、企業側では、より上位の視点で見ると、結局のところ一つのことに抽象化できます。複雑なタスクがあるとき、AIはそれを手伝って完遂できるか?
私たちにとって、今の優先順位は非常に明確で、最前に並ぶのは2つだけです。第一にパーソナルアシスタント。第二に、あなたが複雑な問題を解決するのを手助けできるAIです。
問題は、私たちの現在の計算資源が、そもそもこの2つさえ満たせないことです。そこにさらに多くのアプリシーンを加えることなど不可能です。だからこそこれは、現実的な判断でもあります。技術は急速に成熟し、影響はすぐに爆発的に大きくなる。にもかかわらず、私たちは取捨選択をして、本当に作り込むべき最重要の方向を選ばなければならない。
Alex:
あなたが前に類推として言っていたことがありました。OpenAIはDisneyみたいだ、つまり中核となる能力があって、そこからいろいろな場面へ展開できる。Disneyにはミッキーマウスがいて、映画も作れるし、テーマパークも作れるし、Disney+もある。OpenAIの「コア」はモデルで、動画生成もできるし、アシスタントも作れるし、企業向けアプリも作れる。
でも今の見え方だと、あなたたちはその「全面的な展開」路線をやめて、必ず選択を迫られているように見えますが、それで合っていますか?
Greg Brockman:
実は、むしろこの比喩は今のほうが当てはまっていると思っています。ただ一点だけ重要なのは、技術的な観点ではSora(動画モデル)とGPT(推論モデル)は、2つのまったく異なる技術分岐に属しているということです。構築の仕方が完全に違う。
問題は、現段階でこの2つの技術ツリーを同時に前進させるのは非常に難しいこと、特に資源が限られている状況ではなおさらです。だから私たちは、今の段階では主要リソースをGPTの道に集中する、という選択をしています。
もちろん、これは他の方向性を捨てるという意味ではありません。たとえばロボティクス領域では、関連する研究を引き続き進めています。ただしロボット自体がまだもっと初期の段階で、本当の意味での“爆発的な成熟期”には入っていない。
対照的に、今後1年の間には、AIがナレッジワークの領域で本当に飛躍するのを見ることになるでしょう。
そして強調しておきたいのは、GPTのラインは「テキスト」だけではないということです。たとえば双方向の音声対話(speech-to-speech)も、この技術ルートの一部です。そうすることでAIはより使いやすく、より実用的になります。これらの能力は本質的に同じモデル体系の中で、異なるやり方で調整されて実現されます。
しかし、もし2つのまったく異なる技術分岐へ進むことになると、計算資源が制限されている条件では、長期的に維持するのが難しくなります。そして計算資源が制限される理由は――需要が大きすぎるからです。ほぼすべてのモデルがリリースされると、人々はそれを使ってもっと多くのことをしたくなる。
Alex:
じゃあなぜ「世界モデル(world model)」のルートに軸足を置かなかったんでしょう?たとえば動画モデルは、物体同士の関係を理解する必要があって、それはロボットにとっても重要です。Soraの進展は実際とても速い。なのに最終的にGPTに賭けたのはなぜですか?
Greg Brockman:
この領域で最大の問題は、チャンスが多すぎることです。
私たちはとても早い段階で、OpenAIでは、あるアイデアが数学的に妥当だと判断される限り、たいてい動いて、それなりに良い結果が出ることを見てきました。これは深層学習の基礎能力が非常に強く、データから生成ルールを抽象化でき、それを新しい場面へ移植できることを示しています。これを世界モデル、科学発見、プログラミングなど、さまざまな領域に使うことができます。
ただし、核心は取捨選択が必要だという点です。
昔から「テキストモデルはどこまで行けるのか?」という議論がありました。それは本当に世界を理解できるのか?私は今、この問いには答えが出たと思っています。テキストモデルはAGIへ到達できる。
私たちは明確な道筋を見ています。今年はさらに強いモデルが出てくるでしょう。そしてOpenAIの内部で私が一番つらいと感じていることのひとつは、計算資源の配分です。この問題はますます深刻になるだけで、軽くなることはありません。つまり本質的には「どのルートがより重要か」という問題ではなく、タイミングと順序の問題です。
今、以前は遠い将来の応用だと思われていたことが、現実味を帯びてきています。たとえば、まだ解けていない物理の問題の解決などです。最近、ある事例がありました。物理学者が長い間取り組んでいた問題をモデルに渡したところ、12時間後に私たちは解を提示しました。その人は「初めて、モデルが“考えている”ように感じた」と言ったんです。その問題は、人類が永遠に解けない可能性さえありましたが、AIがやってのけた。
こういうのを目にしたら、あなたが取れる選択肢はひとつしかありません。倍賭けして、三倍投入することです。つまり、私たちは本当に大きな潜在能力を解き放てるということだから。
だから私にとってこれは、方向性同士の競争ではなくて――OpenAIのミッションとは何か?どうやってAGIを世界にもたらすのか?それを本当に全ての人に役立てるにはどうすればいいのか?そして、私たちはその道筋を見ていて、どのように進めればいいのも分かっている。そういう話です。
世界モデルではなくGPTに賭ける:AGIへのルート選択
Alex:
いいえ、さっきあなたが言った次世代モデルに話を戻したいと思います。ただその前に、まずこの質問を追いかけさせてください。
私は今年の初めごろ、Google DeepMindのDemis Hassabisと話しました。とても面白かったのは、彼が言ったことです。彼にとってAGIに最も近いのは、彼らが「Nano Banana」と呼んでいる画像生成器だというのです。
彼の理由は、画像生成器でも動画生成器でも、そのような画像や動画を生成するには、本質的に物体同士の相互作用関係を理解しなければならないし、少なくとも「世界がどのように動くか」を何らかの層で理解している必要がある、ということでした。
つまり、これは潜在的なリスクを意味するのでしょうか?かなり大きい賭けです。もし本当にそうなら、OpenAIが別の技術ツリーに賭け続けることで、何かを見逃してしまうのでは?
Greg Brockman:
もし本当にそうなら?私には2つ答えがあります。
第一に、もちろんそういう可能性はあります。この領域では結局、必ず選択して、必ず賭けることになります。そしてOpenAIは最初からそれをやっています。私たちは、AGIへ至る道が何だと思うのかを判断し、その道に対して強く一点集中して進める。たとえば、ランダムなベクトルを足し合わせれば結果はゼロに近づくかもしれません。でも全ベクトルを揃えれば、明確な方向に進める。
第二に、画像生成はChatGPTの中でも非常に人気の高い能力であり、私たちも継続して投資し、優先的に進めています。なぜそうできるのかというと、それが実は「世界モデル」や「拡散モデル」という技術分岐に属するものではなく、実際にはGPTアーキテクチャの上に構築されているからです。もちろん扱うデータ分布は異なりますが、より下層のコアとなる技術スタックは、結局のところ同じものです。
そしてそれこそが、AGIの最も驚くべき点の一つだと思います。まるでまったく違うように見える応用――音声から音声、画像生成、テキスト処理。そして科学研究やプログラミング、個人の健康情報など、テキストがいろいろな場面で使われること――これらは実は同じ技術フレームワークに収めることができる、ということがある。
だから技術的には、私も会社もずっと考えているのは、できるだけ努力の方向を統一する方法です。私たちは本当に、この技術が全体的な向上をもたらし、さらには経済システム全体を引き上げると信じている。
ただ、規模が大きすぎます。もちろん、私たちはすべてのことをやり切ることはできない。でも、私たちの役割として担当すべき部分はやり切れる。
Alex:
それがArtificial General Intelligence(AGI、汎用人工知能)における「general」の意味ですね。
Greg Brockman:
そう、その「G」はまさにそれを意味しています。
Alex:
では「統一」といえば、あのスーパーアプリはどんなものになるんでしょう?
Greg Brockman:
私のイメージするスーパーアプリは――
Alex:
チャット、プログラミング、ブラウザ、そしてChatGPTのようなものを統合する。そういう理解で合っていますか?
Greg Brockman:
はい。私たちがやりたいのは、エンドユーザー向けのアプリで、あなたがAGIの力、つまりそれの「汎用性」を本当に体験できるものです。
今日のチャットプロダクトを考えると、それは徐々にあなたの個人アシスタント、あなたの個人APIになっていくはずだと思います。本当にあなたのことを考えるAIです。あなたのことをよく理解し、あなたについて多くの情報を持ち、あなたの目標と一致していて、信頼できて、そしてこのデジタル世界である程度「あなたの代わりに」行動できる。
Codexについては、こう捉えるといいでしょう。いまのCodexは、主にソフトウェアエンジニア向けのツールですが、それが「誰もが使えるCodex」へ変わっていく。
何かを創りたい、作り上げたいと思う人は誰でもCodexを使って、コンピュータにやりたいことをやらせられます。そしてそれは単に「ソフトを書く」ことではありません。むしろ「コンピュータを使う」ことそのものです。たとえば、私はノートPCの設定を手伝わせます。ときどきホットコーナー(hot corners)の設定方法を忘れることがある。そこでCodexにやらせると、実際にそれをやってくれる。
それが、本来コンピュータがあるべき姿です。人間に合わせて適応すべきであって、人間がコンピュータに合わせて適応するべきではない。
だから、こういうアプリを想像できます。あなたがコンピュータにやってほしいことを、ただ伝えるだけ。そこには「コンピュータ操作」や「ブラウザ操作」の能力が内蔵されていて、AIが本当にウェブを操作できる。さらに、あなたがそれを実際にやっている内容を監督もできる。そして、あなたのやり取りがチャットであれコードを書いているのであれ、一般的なナレッジワークであれ、これらはすべてひとつの仕組みに統合されます。AIには記憶があり、あなたのことを理解します。
これが私たちが作っているものです。
ただ正直に言うと、それは氷山のほんの一角で、水面に見えている部分にすぎません。私にとっては、さらに重要なのは基盤技術の統一です。
先ほど触れたように、基盤モデル層での統一もありますが、ここ数年で本当に変わったのは、もはや「モデル」そのものの問題ではなく、「それを載せるシステム」こそがより重要になったことです。つまり、モデルはどうやって文脈を得るのか?どうやって現実世界に接続するのか?どんな行動を取れるのか?新しい文脈が次々と入ってきたとき、ユーザーとの対話のループ機構はどう動くのか?
これらのことは、社内では過去には複数の実装、あるいは少し違う実装がありました。でも今、それらを一つに収束させています。最終的には統一されたAIレイヤーを持つことになり、非常に軽量な形で、それをさまざまな具体的なアプリシーンに向けられるようになります。
もちろん、あなたは小さなプラグインや、小さな画面を作って、金融専用、法律専用といった形にもできます。でも大半のケースでは、そうする必要すらないでしょう。なぜなら、そのスーパーアプリ自体が十分に広く、十分に汎用的であるからです。
Alex:
このアプリは企業向けのシーンにも、個人向けのシーンにも対応しますか?
Greg Brockman:
はい、まさにそこが核心です。たとえばコンピュータがそうであるように――あなたのノートPCは、個人用途なのか仕事用途なのか。答えはどちらもです。まずそれはあなたの“デバイス”であり、デジタル世界へ入るためのインターフェースです。そして私たちがやりたいこともそこにあります。
Alex:
じゃあ、非商用の観点で、もし個人の生活の中でこのスーパーアプリを使うなら、私は何をして、生活はどんなふうに変わりますか?
Greg Brockman:
私はこう捉えています。個人の生活では、まずそれは今のChatGPTの使い方を継承するはずです。
今、人々はChatGPTをどう使っていますか?実はすでに、人々は信じられないほど多様で、驚くようなタスクをChatGPTでこなしています。たとえば「結婚式でスピーチをするんだけど、下書きを作ってくれる?」とか「このアイデアを見てくれて、フィードバックをくれる?」とか。あるいは「小さなビジネスをやってるんだけど、アイデアをいくつか出してくれる?」といったことです。
それらの場面には、完全に個人的なものもあれば、すでに個人と仕事の境界が曖昧になっているものもあります。そして私の見立ては、こうしたすべての問題はスーパーアプリに任せられるべきだということです。
Greg Brockman:
でも、ChatGPTの進化の道筋を振り返ると、それ自体が変化してきたわけです。
昔は記憶がありませんでしたよね。つまり、誰にとっても同じAIで、毎回ゼロから始まり、ほぼ“見知らぬ人”と話しているような状態だった。しかしもし過去のやり取りを覚えてくれるなら、はるかに強力になります。さらに、もっと多くの文脈に接続できるなら、なおさらです。
たとえば、メールやカレンダーに接続して、あなたの好みを本当に理解し、これまでの経験に関するより深い背景情報を持ち、その情報を使って目標の達成を助ける、ということもあり得ます。あるいは今のChatGPTにはPulseという機能があって、それがあなたについての理解に基づき、毎日あなたが興味を持ちそうな内容を能動的にプッシュしてくれます。
つまり個人利用のレイヤーでは、スーパーアプリはこれらをすべて含み、より深く、より豊かにやってくれるようになるでしょう。
Alex:
いつリリースする予定ですか?
Greg Brockman:
より正確に言うと、今後数か月の間に、私たちはこの方向へ段階的に進めていきます。私が話しているこの壮大なビジョンは、段階を経て提供されていきますが、一度にまとめて全体がローンチされるわけではありません。分割して登場する形になります。
たとえば今日のCodexアプリ自体、すでに2つの層を含んでいます。ひとつは汎用型のインテリジェントエージェント搭載システム(agent harness)で、ツールを使えます。もうひとつは、ソフトウェアを書くのが得意なエージェント。
そして、この汎用型の搭載システムは、実は他にも多くの場面に使えます。スプレッドシートに接続して、Word文書に接続して、それがナレッジワークを処理するのを助けることもできる。
だから私たちの最初のステップは、Codexアプリを汎用的なナレッジワークに対して、より使いやすくすることです。なぜなら私たちはOpenAIの内部で、みんなが自発的にそう使い始めているのを見ているからです。
これが最初のステップで、その後も多くのステップが続きます。
Alex:
昨日、あなたたちの同僚とCodexについて話したとき、個人がCodexで動画編集に使っているという話を聞きました。彼はCodexに動画を処理させ、CodexはAdobe Premiereにプラグインを作って、動画をチャプターごとに分けて、それから編集を始めた。こういう方向性を目指しているんですか?
Greg Brockman:
こういう事例を聞くのがすごく好きです。まさに、私たちがこのシステムにそういうふうに働いてほしいと思っている形だからです。そして面白いのは、Codexアプリはもともとソフトウェアエンジニア向けに設計されているので、非プログラマーにとっては現状の使いやすさが高くないことです。なぜならセットアップの過程で、小さな問題がたくさん出てくるからです。
開発者なら意味がわかるし、どう直すかも知っています。私たちはそれに慣れている。でも開発者ではない人がそれを見ると、「これって何?今まで見たことない」って思う。
それでも私たちは、プログラムを書いたことのない人たちがすでにCodexでウェブサイトを組み立てたり、あなたがさっき言ったようなことをやったりしているのを見ています――異なるソフトウェア間のやり取りを自動化し、その結果として大きなレバレッジを得ている。たとえば、私たちのコミュニケーションチームにも、それをSlackやメールに接続して大量のフィードバックを処理させ、しかもとても良いまとめや統合を作らせている人がいます。
つまり今の状態は、非常にモチベーションが高い人たちが、これらのハードルを越えて、そこから高いリターンを得る段階に入っている、ということです。
ある意味では、最も難しい部分はもうやり終えています。本当に賢くて、能力があって、実際にタスクを完遂できるAIを作り出した。
次にやるのは、相対的に「簡単」な部分です。つまり、大衆にとって本当に役に立つ状態にして、これらの参入障壁を少しずつ取り除くこと。
Alex:
競争の構図という観点では、Anthropicは今Claudeアプリを持っています。チャットボットもあればClaude Codeもある。ある程度、彼らもすでに自分たちの「スーパーアプリ」の雛形は持っている。
あなたは、Anthropicがなぜより早い段階でそこに到達したのだと思いますか?また、OpenAIが追いつける可能性はどのくらいあると思いますか?
Greg Brockman:
時間を12〜18か月前に戻すと、私たちは実際ずっと「プログラミング」を重点領域として扱っていて、いろいろなプログラミング競技のような、かなり「純粋な能力」テストでも良い成績を出してきました。ただ、当時あまり投資できていなかったのは、ラストマイルの可用性です。
つまり、こうした問題を十分に重視していなかった。AIはもうとても賢くて、あらゆる難しいプログラミング課題を解けます。でも現実世界のコードベースを見たことがないのです。現実世界のコードベースは往々にして混沌としていて、AIが慣れている「きれいな」環境とは全く違う。
この点では、私たちは確かに遅れていました。でもたぶん去年の半ばあたりから、私たちはかなり真剣にこの問題を埋め始めました。私たちは専用チームを作り、どこにギャップがあるのか、現実世界ではどんな混乱や複雑性があるのか――私たちがこれまで実際に触れてこなかった部分がどこなのか――を調べました。
たとえば、訓練データをどう構築するのか、訓練環境をどう作るのか。AIに「ソフトウェアエンジニアリングをやる」感覚を本当に体験させるにはどうするか。途中で遮られること、変な問題にぶつかること、さまざまな非理想的な状況に遭遇すること、などです。
そして今は追いついたと思います。ユーザーが本当に私たちと競合相手を並べて正面から比較すると、多くの人は私たちを選ぶ傾向が出てくるでしょう。
もちろん、フロントエンド体験の面でまだ差があることも私たちは知っています。そこは埋めていきます。ただ全体として、私たちはこの期間の方針として、単にモデルを作ってさらにプロダクトの外側を被せるのではなく、最初からそれを“完全なプロダクト”として考えることに舵を切っている。研究をしている段階でも「最終的にどう使われるのか」を同時に考えている。これはOpenAIの内部で今起きている転換だと思っています。
だから、これからはかなり強いモデルアップグレードの波が来るはずです。今年のロードマップを見るだけでも、すごくワクワクします。できることが本当にたくさんある。
同時に、私たちはラストマイルの可用性を集中的に埋めています。
Alex:
2022年以来、OpenAIはこの分野で揺るぎないリーダーのように見えます。もちろん、いまの競争はテストの成績だけの競争ではなくなっている。さっきあなた自身も「追いついた」と言いましたね。
会社の内側の雰囲気も変わったのでしょうか?つまり、ChatGPTのようなプロダクトで大きく引き離していたときの感覚とは違って、本当に正面から競っている状態になっている。
外部の報道でもその変化はうかがえます。たとえば社内で会議を開き、OpenAIには「支線タスク」などもうない、全員がこのコア方向に集中すべきだと強調した、などです。では今、社内の環境や雰囲気はどう変わりましたか?
Greg Brockman:
私個人としては、OpenAIがChatGPTを発表した直後のタイミングが、いちばん不安になった瞬間でした。
あのときは社内のホリデーパーティで、「勝ったぞ」という雰囲気が漂っていたのを覚えています。私はこれまで、そんな感覚を持ったことがありませんでした。当時の私の反応は「違う、私たちはそういう人間じゃない。私たちは劣勢側だ」というものでした。
そして実際、私たちはずっとそうです。この領域の競争相手は、大半がすでに確立された大企業です。資金も人員もデータも多く、ほとんどのリソースが潤沢です。
それでもOpenAIがどうやって競争に参加できているのか。ある意味で答えはここにあります。私たちは決して、自分たちはもう安心だと思ったことがない。常に挑戦者として自分を捉えてきた。
実際、私にとっては、市場のほうが本当にこの競争構図を見せ始めて、他の相手も出てきて、しかもちゃんとやっていると分かってきたことのほうが、むしろ健全だと感じます。
私の考えでは、注意を競合相手に固定することは絶対にできません。今どこにいるかだけを見つめていても、そこまでたどり着くころには相手はもう先に進んでいます。
ただ、ここ最近はむしろ逆でした。多くの人が私たちのポジションを見てくれている一方で、私たちは前へ進める。そういう状況が、社内のアラインメント感と一体感を生んでくれたと思います。
先ほど言いましたが、過去は「研究」と「デプロイ」をほぼ別物として考えている面がありました。しかし今は、それらを統合したい。私にとって、それはとても素晴らしいことです。
だから、この段階にいるのは、私が「もう完全に勝った」だとか「突然危機に陥った」だとか、そういうことだとは感じていません。知っての通り、外からの評価は、だいたいこちらが言うほど良くもなく、こちらが思うほど悪くもない。
全体として、私たちはずっと安定していると思います。そしてモデル開発のコアの部分については、私たちのロードマップや、これまで進めている研究への投入について、非常に確信があります。プロダクト面については、今はとても良いエネルギーがあると思います。みんなが一つに集まりつつあって、これらのことを本当に世界へ届けようとしている。
Alex:
あなたは前にも何度か、次に強力な新モデルが出てくると言っていました。では具体的にそれは何ですか?
The Informationの記事によれば、あなたたちは「Spud」の事前学習(pre-training)を完了したそうです。さらにSam AltmanもOpenAIの社員に対して、数週間以内に非常に強いモデルが見られるはずだと伝えたとも言われています。それは数週間前の話です。チーム内部の見方では、それが本当に経済を加速させる可能性があり、多くの人が想像しているよりも進みが速いかもしれない。
では、「Spud」とは結局何でしょう?
Greg Brockman:
とても良いモデルです。ただ、重要なのは単一のモデルそのものにあるわけではないと思います。
私たちの研究開発プロセスはだいたいこうです。まずは事前学習、つまり新しい基盤モデルを生み出す段階。そこから先のあらゆる改良は、その基盤モデルの上に積み上がっていきます。この段階は往々にして、社内の多くのチームが莫大な努力を投入する必要がある。実際、この18か月の間、私自身の大部分の時間はここに費やしていました。主にGPUインフラに関わり、学習フレームワークを担当するチームを支えて、それらの大規模学習タスクを本当に走らせることを支援する。
次に強化学習の段階です。つまり、大量の世界知識を学んだAIに、それらの知識を本当に使わせ始める。
さらにその次が後訓練(post-training)の工程。この段階では、実際にこう伝えます。「よし、解き方はもう分かった。では、いろいろな異なる状況で練習してみて」と。
最後に、行動と有用性の「ラストマイル」の段階があります。
だから私としては、Spudは新しい基盤、新しい事前学習モデルだと捉えています。そしてその上には、過去およそ2年間の研究が、ようやく“成果へ向かう”形で集約されていると言えます。とてもワクワクするものになるでしょう。
外部が最終的に体感するのは、能力の全体的な向上だと思います。ただ私にとっては、それは決して「このバージョンを一度出せば終わり」の話ではありません。なぜならこのバージョンが出たとしても、それは次の進展のための早期の形であって、さらに、この改良プロセスの各段階で私たちは引き続きもっと多くをやっていくからです。
つまり、私の見立てでは、私たちは「加速し続ける進歩エンジン」を持っているようなもので、Spudはその道の上の一つの節点にすぎません。
Alex:
それが、今日のモデルではできないことをどんなふうに実現すると考えていますか?
Greg Brockman:
それは、より難しい問題を解けるようになるだけでなく、よりきめ細かくなるはずです。指示をよりよく理解し、文脈をよりよく理解する。
人は時々、「big model smell」という感覚を口にします。つまり、モデルが本当に賢くなって、能力が伸びているときは、はっきりと分かるということです。あなたの意図に沿うようになり、あなたのニーズによりフィットしてくる。
質問しているのに、AIがあなたの意図を本当に理解していないと感じるとき、今でもその感覚はとてもがっかりさせられます。「あなたはそれができるはずなのに」と思ってしまうからです。
だからある意味では、これは多くの「量的な改善」が積み重なってもたらす「質的な変化」です。一方ではさまざまな指標が上がり、もう一方ではまったく新しいシーンが出てきます。以前はAIが信頼できないので使うのが面倒だったのに、今度は迷わずそのまま使うようになる。
これは全面的な変化になると思います。特に期待しているのは、能力の上限がどうやってさらに押し上げられるかです。私たちはすでに物理研究のようなシーンでの表現を見ています。これからは、より多くのオープンエンドな問題や、もっと長い時間軸をまたぐ課題を解けるようになると考えています。
同時に、能力の下限がどれだけ引き上げられるか――つまり、あなたが何をしようと思っても、今日よりずっと役に立つ状態になるのを見たいです。
Alex:
ただ、一般のユーザーにとっては、その変化を実感するのは必ずしも簡単ではありません。たとえばGPT-5がリリースされる前は、外部には事前の期待や予熱がたくさんありました。でも実際に出てみると、最初の一般の反応はある種の失望があった。後から、特定のタスクでは非常に強いことが分かってきた。
では、次の世代のモデルは、主に特定の職業シーンで明確に実感されるのでしょうか?それとも、全員にとって直感的で普遍的に感じられる向上になるのでしょうか?
Greg Brockman:
話はたぶん似たようになると思います。モデルがリリースされると、まずは「これは私が以前見たものとは完全に昼と夜だ」と一発で感じる人が出てくる。でも、ボトルネックが「賢さ(インテリジェンス)」ではないアプリケーションシーンでは、モデルを賢くしても、ユーザーがすぐに違いを感じられない場合がある。
ただ時間が経つにつれて、みんな最終的には変化を感じるようになると思います。なぜなら本当に変わるのは、「このシステムにどれくらい依存し始めるか」だからです。
今のAIとのやり取りについて考えると、誰もが頭の中に「AIが何をできるか」という心理モデルを持っています。そしてその心理モデルは、あまり急には変わりません。通常は、経験が積み重なって、たまにあなたの代わりにとても不思議なことをやってくれた瞬間に「え、こんなことまでできるのか。自分は以前それを全く想像していなかった」と気づく。
たとえば医療情報の取得のような場面では、すでにそういうことが起きています。私には友人がいて、ChatGPTを使って自分のがんに対するさまざまな治療選択肢を調べました。医師はすでに、これは末期で、もはやできることはないと言っていました。しかし彼はChatGPTでいろいろな考え方を調べ、結果として本当に治療案を見つけた。
こういう状況には前提があります。あなたがその場面でAIが助けになることに、ある程度の信頼が必要で、その信頼がなければ、あなたはそこから価値を掘り出すためにそこまでの労力を投じようとしない。
だから私は、今後は次のようなことが起きると思います。あらゆる類似の応用シーンで、AIがあなたにどれだけ役に立つかが、すべての人にとってより一層明白になる。
つまり、技術そのものが強くなるのと同時に、技術に対する私たちの理解も変わって追いついていくということです。
Alex:
つまり、ますますそれに依存するようになる、と。OpenAIの社内では、今年の秋にリリースされると言われている自動化AI研究員を開発しています。それは具体的に何をするものですか?
AIは「飛躍」の初期段階に入っています
Greg Brockman:
全体のトレンドとして、私たちは今、技術の飛躍の初期段階にいると思います。
Alex:
「飛躍」とはどういう意味ですか?
Greg Brockman:
飛躍とは、AIが指数関数的なカーブに沿ってどんどん強くなることです。その一部の理由は、AIを使ってAI自身を改良できるようになったため、研究開発のプロセス全体も加速していることです。
ただし、いわゆる「飛躍」は技術面だけの話ではありません。現実世界でのインパクトが解放されることも意味しています。多くの技術発展はS字曲線のようなものです。しかしそれをもっと長い時間軸で複数重ねて見ると、最終的には近似的に指数級の成長に収束していく。
私たちはまさに今、そのような段階にいると思います。つまり、技術自体が、ますます速い速度で前進し、この進歩エンジンがどんどん勢いを蓄えている。
同時に、外部の世界でも追い風がたくさん生まれています。チップ開発業者がより多くのリソースを投入し、膨大な人々が上層側でさまざまなアプリを作り、AIをさまざまな場面へ埋め込む試みをして、その“いろいろな具体的ニーズとの一致点”を探しています。
こうしたエネルギーが積み上がり続け、AIを「飛躍期」へ押し込みます。AIが、周辺的な存在から、経済成長を押し進める主要なエンジンになっていく。
そしてこれは、私たちのこの数枚の壁の内側だけで起きている話ではありません。世界全体、経済システム全体がいかにしてこの技術を一緒に押し進め、そしてその実用性が前へ前へと発展していくか、という話です。
Alex:
その「研究員」は具体的に何をするんですか?
Greg Brockman:
ここでいう「研究員」とは、本質的にはこういうことです。AIが引き受けられるタスクの割合が増えていくほど、より高い程度で自律的に動かすことを許容すべき、ということです。
ただ、もちろんその裏には多くの慎重な検討ポイントがあります。つまり、私たちがそれを放り出してしばらく勝手に走らせ、あとで戻ってきて「良い結果が出たか」を見る、という意味ではありません。
私たちは引き続き、それを深く管理していくことになると思います。たとえば今のように、もし初級の研究員を連れていて、長い時間放っておけば、多分価値の低いルートに入ってしまうでしょう。でも、熟練の研究員、あるいは方向感覚のある人が指導していれば、彼がすべての具体的な操作スキルを自分で身につけていなくても、その人が出す成果に継続的にフィードバックをしたり、審査したり、方向性のガイダンスを与えたりできる。「私はあなたに何を達成してほしいのか」を伝えることができる。
つまり私のイメージしているシステムは、私たちのアウトプット(モデル)の速度を大幅に上げ、新しい研究ブレイクスルーを生み出し、さらにこれらのモデルが現実世界でより役に立ち、より使いやすくなるようにする仕組みです。そしてこれらは、ますます速い速度で起きていきます。
Alex:
それは具体的に何をするの?「AGIを見つけてきて」と直接言うような形になりますか?それで自分で試しに行く?
Greg Brockman:
ある程度、私としてはそう理解しています。少なくとも最初のレイヤーではそう。でも、より現実的な角度で言えば、研究科学者の一連のワークフローを、できる限りシリコンベースのシステムに移して実行させる、というふうに捉えています。
Alex:
「飛躍」の別の捉え方は、AIの進歩が漸進的な向上から、動力を積み重ね続けていくことで、最終的には人間では止めようのないほどの推進になり、人間より賢い知能へ進んでいく、というものです。
そうなると、進歩が良い方向に進むとしても、それ自体が暴走して、ずれてしまうことを心配しませんか?
Greg Brockman:
それは、もちろん起きます。間違いなく。私は、この技術がもたらす利益を得るには、リスクを真剣に考える必要があると思います。
技術開発のやり方を見ると、安全性や防護に多くの投資をしています。たとえばprompt injection(プロンプトインジェクション)攻撃が良い例です。非常に賢く、能力が高く、さらに大量のツールに接続されたAIを作るなら、それが誰かの奇妙な指示によって誘導されたり、操作されたりしないようにする必要がある。
それが、私たちが多くの時間と労力を投じていることです。そして、すでにとても良い結果も得ていて、この領域を担当する非常に強いチームもいます。
面白いのは、ここにあるいくつかの問題は、人間の世界に置き換えて類推できることなんです。人間もフィッシングの攻撃に影響されるし、ミスリードされるし、完全な文脈を知らない状態で行動してしまうこともある。
私たちはこうした類比を、開発プロセスに持ち込みます。モデルをリリースしたり、モデルを開発したりするたびに、私たちは常に考えます。「それは本当に人間の目標と一致するのか」「本当に役に立てるのか」。これは私たちがとても重視していることです。
もちろん、それだけではなく、もっと大きな問題もあります。世界、経済がどう変わるのか。誰もがこの技術からどう利益を得るのか。こうした問題は技術だけではなく、OpenAI単独で解決できるものでもありません。それでも、私は確かに、技術を前へ進めるだけでなく、潜在力に見合った前向きな影響を本当に生み出せるようにすることについて、繰り返し考えます。
Alex:
問題は、これは競争のように見えるということです。OpenAIの本社のあの数枚の壁の中で起きていることは、多くのオープンソースのプレイヤーにとっても、すぐにコピーされてしまいます。そしてそうしたプレイヤーは、安全の境界や防護措置の面で、往々にして弱くなる。
あなたが以前言った言葉を覚えています。創造的な成果には、多くの人が多くのことを正しくやる必要がある。一方で破壊的な結果は、悪意を持つ人が一人いれば十分かもしれない、という趣旨でした。少なくとも私はそこを最も心配しています。なぜなら、これは確かに競争で、進捗も速いからです。あなたの同業者たちはみな、もし全員が同意して止まるなら止まれる、と言ってきました。でも今のところ、競争が減速する兆しはない。
なら、その回報は、本当にそうしたリスクを引き受ける価値があるのでしょうか?
Greg Brockman:
私は、その回報は価値があると思います。ただ同時に、この答え方は雑で、一刀両断になりすぎているとも感じます。
OpenAIを創立して以来、ずっと私たちは問い続けてきました。「どんな未来が良い未来なのか?この技術はどうすれば本当にすべての人の状況を改善できるのか?」
この問いは2つの観点に分解できます。ひとつは「集中化(centeralization)」の視点です。技術を安全にするには、開発主体が一つであるべきだと考える。そうすれば競争圧力がなくなるので、ゆっくり慎重に正しく進め、準備が整ってから、どうやってそれを全員へ提供するかを決められる。こういう考え方は理解できる。とはいえ、ある意味では、受け入れにくい解にもなり得ます。
もうひとつの道――私たちがより好む道――は「レジリエンス(韌性)」を起点に考えることです。つまり、これをオープンなシステムとして捉える。多くの参加者がこの技術の発展を進めるが、焦点は技術そのものだけでなく、この技術の周りに“社会インフラ”を築き、より慎重に受け止められるようにすることにある、という発想です。
電力の発展を考えれば分かりやすいでしょう。電力も、多くの異なる人々や機関によって作られます。電力自体にもリスクや危険性はある。ですが同時に、私たちは多層の安全インフラを電力の周囲に築いてきました。電力安全の基準があり、さまざまな使用ルールがあり、規模に応じた監督の方式が違う。非常に大規模になったら、専用の規制要件も必要になる。多くの人が民主化された形で電力を使えるようになっていて、検査官もいて、関連する一連の仕組みがあり――技術の特性に合わせて、それらが徐々に構築されていく。
AIも同じだと思います。私たちが本当に見えてきたのは、AIの周りには広範な社会的議論が必要だということです。もしこの技術が本当に到来し、すべての人の生活を変えるなら、人々は参加する必要がある。それは、単一の集中化された小さな集団がこっそり推進して決めるだけではいけない。
だから私にとっては、これはずっと中心的な問題です。この技術はどんな形で展開されるべきか。そして私たちが本当に信じているのは、技術の発展に沿って徐々に形成されていく「レジリエンスのエコシステム」なのです。
Alex:
つまり、あなたの言うところでは、私たちは今まさに「飛躍」の最中であり、私たち全員がその中にいる。NvidiaのCEOである黄仁勳氏は最近、AGIはすでに実現したと言っています。同意しますか?
Greg Brockman:
AGIというものは、人によって定義が違うと思います。そして実際、今日の技術をすでにAGIだと考える人もかなりいます。
議論はあり得ます。ただ面白いのは、私たちが今持っている技術は、実はまだ非常に「なめらかではなく」、はっきりした“断層”があるという点です。
たとえばコードを書くような多くのタスクでは、すでに超人的です。AIはそれができるし、創造的なことをする際の摩擦も確かに大きく減らします。
でも一方で、人間が簡単にできるような、非常に基本的なことがいくつかあって、AIはまだ苦労してしまう。
では、どこに境界線を引くのか。ある意味、それは「感覚」であって、「いまこの瞬間に、厳密に科学的に定義できる問題」ではない。
私自身は、明らかにその瞬間を経験していると思います。もし5年前に、今日のこれらのシステムを見せられたら、「そう、これこそが私たちが当時言っていたものだ」と言ったでしょう。ただし、現実に現れた姿と、当初想像していたものはかなり違う。過去に私たちが想像していたどんな形とも少し違う。
だから私たちは、それに合わせて自分の頭の中のモデルも調整する必要があると思います。
Alex:
つまり、まだ完全ではない?
Greg Brockman:
大体70%か80%くらいには来ていると思います。つまり、私たちはかなり近い。
そして、非常に明確なことが一つあります。今後数年間で私たちは必ずAGIを迎える。その振る舞いはまだ「ジグザグ」になるかもしれません。全面的に滑らかで、至る所で完璧だというわけではない。でも、タスクをこなす下限が非常に高くなる――ほとんどの、あなたがコンピュータ上で行う必要のある知的タスクについて、AIができるようになる。
だから私は、不確実性を少し含む答えを出さざるを得ません。ここにはある種の「不確実性原理」のようなものがあるからです。定義によって議論は変わる。でも私個人の定義に沿えば、私たちはもうほとんど到達している。もう一歩先へ行けば、確実にそうなる。
重要な転換:仕事の20%から80%の引き継ぎへ
Alex:
2025年12月にいったい何が起きたのでしょうか?それは転換点のように見えます。「機械が何度も中断されず、数時間連続でコードを書き続ける」ことが、ある理論的なアイデアから、みんなが「僕はこれを信頼して、しばらく勝手に走らせられると思う」と言い始める実感へ変わった。
では、そのとき何が起きたんですか?
Greg Brockman:
新しいモデルがリリースされた後、AIがこなせるタスクの割合は、あなたの仕事の20%から一気に80%へ上がった、という感覚です。これは非常に大きな変化です。単に「なかなか便利な小さなツール」ではなくなって、あなたはこれらのAIの周りで仕事のワークフローを再編しなければならなくなる。
私自身にも、非常典型的な“身体感覚の瞬間”があります。ここ数年、私はテスト用のプロンプトを1つ持っています。AIに私の代わりにウェブサイトを作らせる、というものです。そのウェブサイトは、当時私がプログラミングを学んだときに自分で手作りしたもので、数か月かけました。
ところが2025年の時点では、それなりに見栄えのするものにするには、数時間かけて何度もプロンプトをやり取りする必要がありました。ところが12月になってからは、私が聞いたのは一回だけで、AIが一発で作ってくれ、しかも出来も良かった。
Alex:
それらのモデルは、どうやってこのジャンプを実現したんですか?
Greg Brockman:
大部分の理由は、基盤モデル自体が強くなったことです。OpenAIは事前学習の技術を継続的に向上させています。そしてそのタイミングで、初めて「今年の残りで何が起きるか」が少し見えてきた。
ただし、それは単一点のブレイクスルーだけの話ではありません。正確に言うと、あらゆるイノベーションの次元で継続的に前進している。
これらのモデルは面白い点があって、ある意味では「跳躍」が何度も起きたと感じます。でも別の見方をすると、すべては連続的な進化です。突然0%から80%に飛んだわけではなく、20%から80%へ改善した。だからある意味では、ただもっと良くなっただけとも言えます。
そして私は、この進歩が、その後の各小バージョンのアップデートでも継続して起きていると思います。たとえば5.2から5.3に移ったときです。非常に密に協力しているエンジニアがいて、彼は元々、モデルに自分の担当する“ボトムのハードなシステムエンジニアリング”をやらせることがまったくできなかった。でも新バージョンでは、モデルが彼の設計ドキュメントを引き継いで、本当に実装し、指標監視や可観測性を付け、profilerを回して性能分析を行い、さらに継続的に最適化して、最終的には彼が本来自分で手渡ししたかった成果まで到達できた。
だからこれは、「ゆっくり前進して、ある時点でどこもかしこも変わる」みたいなプロセスです。そしてもちろん、そのすべては、今まさに作用している能力の蓄積によって予示されていた。遅くとも1年以内に、多くのこと、しかも中にはもっと速く、非常に信頼できる状態になっていくはずです。
Alex:
それはあなた自身にとっても意外でしたか?というのも、最近のインタビューで、Codexのような自動プログラミングツールは本来ソフトウェア開発者向けだったと言っていたのを覚えています。しかしこの会話のもっと早い段階では、「実は誰でも使える」と言っていました。
何があなたの見方を変えたんでしょう?
Greg Brockman:
私は以前ずっとCodexを「コードを書く」という枠組みで捉えていました。名前にcodeが入っているので、プログラマー向けのツールだと思うのは自然です。そしてOpenAI内部の多くの人はソフトウェアエンジニアでもある。自分たちのためのツールを作っているから、そう考えるのも非常に自然でした。
でも技術が進歩していく中で、私たちは気づいたんです。私たちが実際に作り込んだ基盤技術の大半は、そもそも「コード」に関するものではない。根本は「問題を解決する」ことです。
その核心は、文脈を管理し、実行のフレームワー