DeepMind創始者インタビュー:AGIアーキテクチャ、エージェントの現状と次の十年の科学的ブレイクスルー

原视频タイトル:Demis Hassabis: Agents, AGI & The Next Big Scientific Breakthrough

原视频来源:Y Combinator
原文編訳:深潮 TechFlow

編集導語

Google DeepMind CEO、ノーベル化学賞受賞者 Demis Hassabis が Y Combinator にゲスト出演し、AGI への重要な進展、起業家が先行を維持するためのアドバイス、次の大きな科学的ブレイクスルーがどこに現れる可能性があるかについて語った。

深層技術の起業家にとって最も実用的な判断は、もしあなたが今日10年規模の深層技術プロジェクトを始めるなら、AGI の出現を計画に組み込む必要があるということだ。さらに、DeepMind から分離したAI製薬会社Isomorphic Labs(アイソモルフィック・ラボズ)から間もなく重要な発表があることも明かした。

精選名言

AGI のロードマップとタイムライン

·「既存のこれらの技術コンポーネントは、ほぼ間違いなく最終的な AGI アーキテクチャの一部となるだろう。」

·「継続学習、長期推論、記憶のいくつかの側面の問題はまだ解決されていない。AGI にはすべてを解決する必要がある。」

·「もしあなたの AGI のタイムラインが私と同じく2030年頃だとしたら、今日深層技術のプロジェクトを始めたなら、その途中で AGI が出現することを考慮しなければならない。」

記憶とコンテキストウィンドウ

·「コンテキストウィンドウはおおよそ作業記憶に相当する。人間の作業記憶は平均7つの数字しか覚えられないが、我々は百万、さらには千万トークンのコンテキストウィンドウを持つことができる。しかし問題は、重要でない情報や誤った情報もすべて詰め込みすぎている点で、現状のやり方はかなり粗雑だ。」

·「リアルタイムのビデオストリームを処理し、すべてのトークンを保存しようとすると、100万トークンは実質約20分分しか持たない。」

推論の欠陥

·「私は Gemini でチェスをするのが好きだ。時々、これはひどい手だと気づくが、より良い手が見つからず、結局ぐるぐる回ってそのひどい手を打つことになる。でも、正確な推論システムならこんなことは起きるべきではない。」

·「一方で、IMO の金メダル級の問題を解きながらも、質問の仕方を変えると小学生の算数の誤りを犯すこともある。自己の思考過程の内省において、何かが欠けているようだ。」

エージェントと創造性

·「AGI に到達するには、自ら問題を解決できる能動的なシステムが必要だ。エージェントはその道だと考えている。私たちはまだ始まったばかりだ。」

·「私は、Vibe Coding を使ってトップクラスのアプリストアランキングに登る3Aゲームを作った人を見たことがない。現状の投入資源を考えれば可能だと思うが、まだ実現していない。ツールやプロセスに何かが欠けているのだろう。」

蒸留と小型モデル

·「私たちの仮説は、最先端の Pro モデルを半年から一年後にリリースすれば、その能力を非常に小さく圧縮し、エッジデバイス上で動かせるモデルにできるというものだ。理論的な情報密度の限界にはまだ到達していない。」

科学発見と「アインシュタインテスト」

·「時々これを「アインシュタインテスト」と呼んでいる。1901年の知識だけでシステムを訓練し、アインシュタインが1905年に行った狭義相対性理論を含む成果を独立して推論できるかどうかだ。これができれば、そのシステムは新しい発明に近づいている。」

·「ミレニアム賞の問題を解くのは素晴らしいことだが、それ以上に難しいのは、新たなミレニアム賞の問題を提起し、それがトップ数学者にとっても深遠で一生をかけて研究する価値があると認められることだ。」

深層技術の起業アドバイス

·「難問を追うのと簡単な問題を追うのは、実はほとんど同じことだ。ただし、その難しさのアプローチが異なるだけだ。人生は短い。やらなければ誰もやらないことにエネルギーを注ぐのが良い。」

AGI 実現の道筋

Gary Tan:あなたは AGI についてほぼ全員より長く考えてきた。現在のパラダイムを見ると、私たちは最終的な AGI アーキテクチャのどれくらいを既に持っていると思う?根本的に欠けているものは何だ?

Demis Hassabis:大規模事前学習、RLHF、思考連鎖(Chain of Thought)などは、最終的な AGI アーキテクチャの一部になると確信している。これらの技術は今日までに多くのことを証明してきた。2年後にこれらが行き詰まりだと考えるのは想像できない。私には通じない。ただし、既存のものの上に、あと1、2の要素が必要だと感じている。継続学習(Continual Learning)、長期推論(Long-term Reasoning)、記憶のいくつかの側面には未解決の問題が残っている。

AGI を全部解決しなければならない。既存の技術と漸進的なイノベーションを組み合わせればそこまで到達できるかもしれないが、もしかしたら突破すべき重要なポイントがあと1、2個残っている可能性もある。私はその確率は五分五分だと考えている。だから Google DeepMind では両方のラインを推進している。

Gary Tan:私も多くのエージェントシステムと関わっているが、最も驚いたのは、底層の重みが回り回って同じものだということだ。だから、継続学習の概念は非常に面白い。今はほとんどテープで貼り付けているような状態だ。例えば「夜間夢境サイクル」など。

Demis Hassabis:そうだね、その夢境サイクルは面白い。私たちは過去にシナリオ記憶の統合についても考えたことがある。私の博士研究は海馬が新しい知識を既存の知識体系に優雅に融合させる仕組みだった。脳はこの点で非常に優れている。

睡眠中にこのプロセスを完了させる。特にレム睡眠(REM sleep)中に重要な経験を再生し、学習に役立てる。最初の Atari プログラム DQN(DeepMind が2013年に発表した深層Qネットワーク、深層強化学習を用いて Atari ゲームで人間レベルに到達)は、経験の再生(Experience Replay)を用いて Atari ゲームをマスターした。これは神経科学から学んだもので、成功した経路を繰り返し再生する手法だ。2013年の話で、AI の古典的な時代だが、非常に重要だった。

同意する。今は確かにテープで貼り付けている状態だ。すべてをコンテキストウィンドウに詰め込む。これはあまり良くない。生物の脳ではなくても、理論上百万、千万のコンテキストウィンドウは可能だし、記憶も完璧にできるだろうが、検索や取り出しのコストは依然として存在する。今の決定的な瞬間に、真に関連する情報を見つけ出すのは簡単ではない。すべてを保存できてもだ。だから、記憶の分野にはまだ大きな革新の余地があると感じている。

Gary Tan:正直、百万トークンのコンテキストウィンドウは私の予想よりずっと大きく、多くのことができそうだ。

Demis Hassabis:多くの場面では十分だと思う。でも、コンテキストウィンドウは作業記憶に相当する。人間の作業記憶は平均7つの数字しか覚えられないが、我々は百万、さらには千万トークンのコンテキストウィンドウを持てる。問題は、何でも詰め込みすぎている点だ。重要でない情報や誤った情報も含めてだ。今のやり方はかなり粗雑だ。リアルタイムのビデオストリームを処理し、すべてのトークンを記録しようとすると、100万トークンは実質約20分分しか持たない。だが、1〜2ヶ月の生活状況を理解させたいなら、まだ遠い。

Gary Tan:DeepMind は長年、強化学習と探索に深く投資してきたが、その哲学は今、Gemini の構築にどれほど浸透している?強化学習はまだ過小評価されているのか?

Demis Hassabis:確かに過小評価されているかもしれない。関心は上下してきた。私たちは DeepMind 創立当初からエージェントシステムに取り組んできた。すべての Atari や AlphaGo の研究は本質的に強化学習エージェントに属し、自律的に目標を達成し、意思決定や計画を行うシステムだ。もちろん、当時はゲームの分野を選んだ。複雑さが制御できる範囲だったからだ。その後、AlphaGo の後に AlphaStar を作り、ほぼすべてのゲームを網羅した。

次の課題は、これらのモデルを世界モデルや言語モデルに一般化できるかどうかだ。過去数年、私たちはこれに取り組んできた。今日の最先端モデルの思考パターンや思考連鎖推論は、基本的に AlphaGo が開拓したものの再帰だ。

私たちが当時やった多くのことは、今と非常に関係が深い。より大きなスケールとより汎用的なアプローチで、モンテカルロ木探索(Monte Carlo Tree Search)などの強化学習手法を再検討している。AlphaGo や AlphaZero の思想は、今の基盤モデルと非常に密接に関連しており、今後数年の進歩の大部分はそこから来ると考えている。

蒸留と小型モデル

Gary Tan:今やより賢くなるにはより大きなモデルが必要だが、同時に蒸留技術も進歩しており、小型モデルもかなり高速化できる。あなたたちの Flash モデルは非常に強力で、最先端モデルの95%の性能をほぼ再現できるが、価格は10分の1だ。正しい?

Demis Hassabis:これが私たちのコアな強みの一つだと思う。まず最大のモデルを作り、その能力を獲得する。次に、その能力を素早く蒸留・圧縮して、より小さなモデルに落とし込むのが得意だ。蒸留の手法は私たちが発明したもので、今も世界トップクラスだし、ビジネスの動機も強い。私たちは世界最大の AI 応用プラットフォームの一つだ。

AI Overviews や AI Mode、そして Gemini を持ち、Google のすべての製品(マップ、YouTube など)に Gemini や関連技術を統合している。これには数十億のユーザーと、十数の十億規模の製品が関わる。これらは超高速、超効率的、コストも低く、遅延も最小限に抑える必要がある。だからこそ、Flash やより小さな Flash-Lite モデルを極限まで効率化したいと考えている。最終的にはこれがユーザーのさまざまな作業に役立つことを願っている。

Gary Tan:これらの小型モデルはどれほど賢くなるのか興味深い。蒸留には限界があるのか?50Bや400Bのモデルは、今日の最大の最先端モデルと同じくらい賢くなれるのか?

Demis Hassabis:情報理論の観点からの限界にはまだ到達していないと思う。少なくとも今のところ、到達したという証拠はない。いつか何らかの情報密度の天井にぶつかるかもしれないが、今の仮説は、最先端の Pro モデルを半年から一年以内に圧縮し、ほぼエッジデバイスで動かせる小さなモデルにできるというものだ。

Gemma モデルでもこれが見て取れる。Gemma 4 モデルは同じ規模で非常に高性能だ。これらは大量の蒸留技術と小型モデルの効率化技術を駆使している。だから、理論的な限界は見えていないし、まだまだ遠いと感じている。

Gary Tan:今や、エンジニアが6ヶ月前の500倍から1000倍の作業量をこなせるという、非常に突飛な現象が起きている。ここにいる人の中には、2000年代の Google エンジニアの1000倍の仕事をしている人もいると、Steve Yegge が言っていた。

Demis Hassabis:それはとてもエキサイティングだ。小型モデルには多くの用途がある。コストが低く、速度も速い。コードを書いたり他のタスクをこなす際に、より早く反復できる。システムと協働する場合、たとえ最先端から少し外れていても(例えば90〜95%の性能)十分役立つし、その分速さを上げることで得られる価値は、その10%の差を上回る。

もう一つの大きな方向性は、これらのモデルをエッジデバイス上で動かすことだ。効率化だけでなく、プライバシーやセキュリティの観点からも重要だ。個人情報を扱うさまざまなデバイスやロボットを考えると、家庭用ロボットには高効率で強力なモデルをローカルで動かし、特定のシナリオだけクラウドの大規模モデルに委託したい。音声や映像もローカル処理し、データもローカルに留める。これが究極の状態になると想像できる。

記憶と推論

Gary Tan:コンテキストと記憶に戻る。モデルは現在無状態だが、継続学習能力があれば、開発者の体験はどう変わる?こうしたモデルをどう導く?

Demis Hassabis:これは非常に興味深い問題だ。継続学習の欠如は、現行のエージェントが完全なタスクを完遂できない大きな壁だ。今のエージェントは局所的な部分には役立つが、環境に適応できない。これが「発射後も放置」できない理由だ。具体的なシナリオに適応できる学習能力が必要だ。これを解決しなければ、真の汎用知能には到達できない。

Gary Tan:推論の進展はどこまで来ている?思考連鎖は強力だが、いくつかの基本的な誤りを犯すこともある。何を改善すれば良い?推論の未来はどうなる?

Demis Hassabis:思考のパラダイムにはまだ大きな革新の余地がある。私たちのやっていることは、まだかなり粗雑で暴力的だ。改善点は多い。例えば、思考過程を監視し、途中で介入できる仕組みを作ることだ。しばしば、私たちのシステムや競合のシステムは過剰に考えすぎてループに陥る。

Gemini での対局を観察するのも面白い。すべての先端モデルは実はチェスに関してはかなり弱い。これは非常に興味深い。

彼らの思考軌跡を見るのは価値がある。チェスは理解された分野だからだ。偏りや誤りをすぐに見抜ける。時には、一手を考え、臭い手だと気づくが、より良い手が見つからず、結局同じ臭い手を打つ。正確な推論システムなら、こんなことは起きるべきではない。

この大きなギャップは依然として存在するが、それを修正するには一、二の調整だけで済むかもしれない。だから、「ギザギザ知能」(Jagged Intelligence)と呼ばれる現象がある。片側では IMO 金メダル級の問題を解き、質問の仕方を変えると小学生の算数の誤りを犯す。自己の思考過程の内省において、何かが欠けている。

エージェントの真の能力

Gary Tan:エージェントは大きな話題だ。誇張だという意見もあるが、私はまだ始まったばかりだと考えている。DeepMind 内部のエージェント能力に関する評価はどうか?外部の宣伝とのギャップは?

Demis Hassabis:同意する。私たちは本当に始まったばかりだ。AGI に到達するには、自ら問題を解決できる能動的なシステムが必要だ。これがエージェントの道だと確信している。私たちはずっとそう考えてきた。

皆、エージェントをより良く仕事に組み込む方法を模索している。多くの実験を行い、今も試行錯誤中だ。どうやってエージェントをワークフローに融合させ、単なる付加価値ではなく根本的な役割を果たさせるか。今はまだ実験段階だ。ほんの数ヶ月前に、非常に価値のあるシナリオを見つけたところだ。技術的には、ただの玩具ではなく、実際に時間と効率を向上させるものになりつつある。

多くの人が何十個ものエージェントを起動し、何十時間も動かしているのを見るが、その投入に見合う成果が出ているかはまだ確信が持てない。

また、Vibe Coding を使ってトップクラスのアプリやゲームを作った人もいない。私も少しやったし、多くの人も良いデモを作っている。今なら30分で「Theme Park」のプロトタイプを作れる。17歳の時は半年かかった。

夏休み一つ丸ごと使えば、驚くべきものができる気がする。ただし、工芸や人間の魂、品位も必要だ。これらを製品に取り入れることが重要だ。実際、今のツールを使って1千万部売れるヒットゲームを作った子供はまだいないが、現状のツールと投入資源なら可能だと思う。何かが足りないのだろう。プロセスやツールに関係しているかもしれない。今後6〜12ヶ月でそうした成果を見ることになるだろう。

Gary Tan:それはどれくらい完全自動化されるのか?最初から全自動はあり得ないと思う。より現実的なのは、まずは皆さんが1000倍の効率を達成し、その後、これらのツールを使ったヒット作やゲームが出てきて、次第に多くの工程が自動化されていく道だ。

Demis Hassabis:その通り。まずはそれを見たい。

Gary Tan:また、一部の人はすでにそうしているが、エージェントがどれだけ役立ったかを公にしたくないのかもしれない。

Demis Hassabis:そうかもしれない。でも、創造性の話をしよう。私はよく AlphaGo の例を挙げる。第2局37手目のあの一手だ。あの瞬間を待っていた。あれが出たことで、私は AlphaFold などの科学プロジェクトを始めた。韓国から帰った翌日に AlphaFold の研究を始めたのは10年前のことだ。今回韓国に行ったのも、AlphaGo の10周年を祝うためだ。

しかし、Move 37 を超えるだけでは不十分だ。それはクールで役に立つが、そのシステムが囲碁そのものを発明できるかどうかだ。例えば、「5分でルールを学び、一生かかっても極められないほど美しいゲーム」と高レベルに記述し、その結果が囲碁だったとしたらどうか。今日のシステムはそれを実現できていない。なぜだと思う?

Gary Tan:もしかしたら、誰かがそれをやれるかもしれない。

Demis Hassabis:もし誰かができたとしたら、その答えは「システムに何かが足りない」のではなく、「我々の使い方に問題がある」かもしれない。もしかしたら、今のシステムにはその能力がすでに備わっているのかもしれない。ただ、それを引き出すには、天才的なクリエイターが必要だ。その人は、プロジェクトに魂を吹き込み、ツールと高度に融合し、ほとんど一体化している状態だ。日夜これらのツールに没頭し、深い創造力を持てば、想像を超えるものを作り出せるかもしれない。

オープンソースとマルチモーダルモデル

Gary Tan:話題を変えて、オープンソースについて。最近 Gemma のリリースにより、非常に強力なモデルをローカルで動かせるようになった。どう思う?AIはユーザー自身が掌握するものになり、クラウドに主に残るものではなくなるのか?これが、誰がどのようにこれらのモデルを使って製品を作るかを変えるのか?

Demis Hassabis:私たちはオープンソースとオープンサイエンスの強力な支持者だ。あなたが言った AlphaFold は完全に無料で公開した。私たちの科学的研究は今もトップジャーナルに発表している。Gemma については、同等の規模で世界をリードするモデルを作ることを目指している。現在、Gemma のダウンロード数は約4000万回に達しており、リリースからわずか2週間半だ。

また、オープンソースの分野では、西洋の技術スタックの存在が重要だ。中国のオープンソースモデルも非常に優秀で、現状リードしているが、私たちは Gemma が同規模で非常に競争力があると考えている。

資源の問題もある。誰も余分な計算能力を持っていないため、2つのフルサイズの最先端モデルを同時に作ることはできない。だから、今の決定は、エッジモデルを Android や眼鏡、ロボットなどに使い、オープンモデルにすることだ。デバイスに展開すれば、露出されるため、完全にオープンにした方が良いと判断している。私たちはナノレベルでオープン戦略を統一しており、戦略的にも理にかなっている。

Gary Tan:あなたに見せた AI オペレーティングシステムのデモでは、音声だけで Gemini と対話できた。これを実現するのは緊張したが、なんとか動いた。Gemini は最初からマルチモーダルで構築されている。いろいろモデルを使った経験もあるが、音声からモデルへのインタラクションとツール呼び出し、コンテキスト理解の深さは、今のところ Gemini に勝るものはない。

Demis Hassabis:その通り。Gemini シリーズの大きな強みの一つは、最初からマルチモーダルを意識して構築したことだ。これにより、スタート段階ではテキストだけのモデルよりも難易度は高いが、長期的には大きな恩恵を受けると信じている。すでにその恩恵は実現し始めている。

例えば、世界モデルの構築では、Gemini 上に Genie(DeepMind が開発した生成的インタラクション環境モデル)を作った。ロボット分野も同様で、Gemini Robotics はマルチモーダル基盤モデルを土台にしており、これが競争優位の一つになる。Waymo(Alphabet の自動運転子会社)でも Gemini をますます多用している。

想像してほしい。あなたの周囲の物理世界や環境を理解できるデジタルアシスタントだ。スマホや眼鏡に搭載され、あなたの周囲の状況を理解し、リアルな世界と連携する。私たちのシステムはこの点で非常に強力だ。今後もこの方向に投資を続ける。こうした問題でのリードは大きいと考えている。

Gary Tan:推論コストは急速に下がっている。推論がほぼ無料になったとき、何が可能になる?あなたたちの最適化の方向性は変わる?

Demis Hassabis:推論が本当に無料になるかはわからない。ジェヴォンズの逆説(Jevons’ Paradox、効率化が逆に総消費を増やす現象)もあるからだ。最終的には、誰もが持てる計算資源を使い切るだろう。

何百万ものエージェントが協調して働いたり、複数のエージェントが異なる方向から同時に考え、統合したりする未来も想像できる。私たちもこれらの方向性を実験している。これらはすべて推論リソースを消費する。

エネルギー面では、核融合や常温超伝導、最適電池などの問題を解決できれば、材料科学の進歩によりエネルギーコストはほぼゼロに近づくと考えている。ただし、チップの物理的製造などのボトルネックは依然として存在し、今後数十年は続く。したがって、推論の割り当てには制限があり、効率的な利用が求められる。

次の科学的ブレイクスルー

Gary Tan:小型モデルはますます賢くなっている。生物やバイオテクノロジーの創業者も多くいる。AlphaFold 3 はすでにタンパク質を超え、より広範な生物分子に拡大している。完全な細胞システムのモデリングにはどれくらい近づいている?これは全く別の難易度の問題なのか?

Demis Hassabis:Isomorphic Labs の進展は非常に良い。AlphaFold は医薬品発見の一段階に過ぎない。私たちは隣接する生化学研究、適切な性質を持つ化合物の設計などに取り組んでおり、間もなく重要な発表ができる見込みだ。

最終的な目標は、完全な仮想細胞を作ることだ。干渉可能な全機能の細胞シミュレーターで、その出力は実験結果に十分近く、実用的な価値も持つ。大量の探索ステップをスキップし、合成データを生成して他のモデルを訓練し、実細胞の挙動を予測させる。

完全な仮想細胞の実現にはあと10年ほどかかると見ている。私たちは DeepMind の科学側面で、細胞核から始めている。細胞核は比較的自己完結的なシステムだからだ。この問題の鍵は、複雑さの適度なスライスを切り出せるかどうかだ。十分に自己包含的で、入力と出力を合理的に近似できるシステムだ。細胞核はこの観点から理想的だ。

もう一つの課題はデータ不足だ。電子顕微鏡や他のイメージング技術のトップ科学者と話したことがある。細胞を殺さずに生きたまま観察できれば革命的だ。視覚的な問題に変換できるからだ。私たちもその方向に興味がある。

しかし、ナノレベルの解像度で生きた細胞の動的イメージング技術は、現状ではまだ実現していない。静止画像は非常に高精細だが、それを視覚問題に変換するには不足している。

二つの道がある。一つはハードウェアとデータ駆動型のアプローチ。もう一つは、より良い学習可能なシミュレータを構築し、動力学系を模倣することだ。

Gary Tan:生物だけでなく、材料科学、医薬品発見、気候モデリング、数学も含めて、未来の五年で最も徹底的に変わる科学分野はどれか?

Demis Hassabis:どの分野も魅力的だ。これが私の最大の情熱であり、30年以上 AI に取り組む理由だ。私は常に、AI が科学の究極のツールとなり、科学理解や発見、医学、宇宙の認識を推進すると信じてきた。

最初のミッションは二段階だ。第一に、知能を解決し、AGI を構築すること。第二に、それを使ってすべての問題を解決することだ。後に表現を調整したのは、「すべての問題を解決する」と本気で言っているのかと問われるからだ。

私たちは本気だ。今やその意味を理解し始めている。具体的には、「根幹問題」と呼ぶ科学分野の突破だ。これを解けば、新たな発見の枝が開ける。AlphaFold はその原型だ。

世界中の研究者の三百万人以上が、ほぼすべての生物学研究者が AlphaFold を使っている。製薬会社の幹部からも、今後ほぼすべての薬物発見に AlphaFold が使われると聞いている。私たちは誇りに思うし、AI がもたらすインパクトの一例だ。ただ、これは始まりに過ぎない。

どの科学や工学の分野も、AI の助けなしには進まないと考えている。あなたが挙げた分野は、「AlphaFold 1」の時点にある。結果はかなり有望だが、まだ大きな課題は解決されていない。今後2年で、材料科学から数学まで、多くの進展が見込まれる。

Gary Tan:まるでプロメテウスの神話のように、人類に新たな能力をもたらす感じだ。

Demis Hassabis:その通り。もちろん、プロメテウスの寓話のよう

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン