a16z 長文:AI の次のフロンティアは言語ではなく物理世界に—ロボット、自律科学、ブレインマシンインターフェースの三重回転輪

著者: Oliver Hsu(a16z)

翻訳: 深潮 TechFlow

深潮ガイド: この記事は a16z 研究員 Oliver Hsu によるもので、2026年以降最も体系的な「物理AI」投資マップです。彼の判断は:言語/コードの主線は依然スケーリングを続けているが、次世代の破壊的能力を実現できるのは、その主線に隣接した3つの領域――汎用ロボット、自律科学(AI科学者)、脳-機械インターフェースなどの新型人機インターフェースだということです。著者はそれらを支える5つの基盤能力を解き明かし、これら3つの戦線が相互に喚起し合う構造的なフリューリングを形成すると論じています。物理AIの投資ロジックを見極めたい人にとって、これは最も包括的なフレームワークです。

今日のAIを支配するパラダイムは、言語とコードを中心に構成されています。大規模言語モデルのスケーリング法則はすでに明確に描かれ、データ、計算能力、アルゴリズム改良のビジネスフリューが回転し続けており、能力向上のたびに得られるリターンは依然大きく、かつその多くは目に見えるものです。このパラダイムは、その資本と注目を十分に吸収するに値します。

しかし、隣接する別の一群の領域は、すでに実質的な進展を孕んでいます。これにはVLA(視覚-言語-動作モデル)、WAM(世界動作モデル)などの汎用ロボット路線、「AI科学者」を軸にした物理・科学推論、そしてAIの進展を利用した新型人機インターフェース(脳-機械インターフェースや神経科学を含む)が含まれます。これらの方向性は、技術そのものだけでなく、人材、資本、創業者も引きつけ始めています。最先端のAIを物理世界に拡張する技術原語は同時に成熟しつつあり、過去18ヶ月の進展は、これらの領域がまもなくそれぞれのスケーリング段階に入ることを示しています。

いかなる技術パラダイムにおいても、現在の能力と中期的な潜在能力の差異(デルタ)が最大となる場所には、2つの特徴があります:一つは、現状の最先端を推進するスケーリングの恩恵を享受できること、もう一つは、その主流パラダイムから一歩距離があること――すなわち、その基盤インフラや研究動力を継承できる近さと、実質的な追加作業を要する遠さです。この距離は、自然と高速な追随者の防波堤を形成するとともに、情報がより希薄で混雑しない問題空間を定義し、新たな能力の出現を促進します――ちょうど、ショートカットが未だ完了していないからです。

図注:現在のAIパラダイム(言語/コード)と隣接する最先端システムの関係性の概略

今日、この条件に合致するのは3つの領域です:ロボット学習、自律科学(特に材料科学と生命科学の分野)、および新型人機インターフェース(脳-機械インターフェース、無声音声、神経ウェアラブル、デジタル嗅覚のような新感覚チャネルを含む)。これらは完全に独立した作業ではなく、「物理世界の最先端システム」という同じテーマに属します。これらは、物理的な動作や測定、感知の能力を向上させる一連の基盤原語を共有しています:物理動力学の学習表現、具現化された動作に向けたアーキテクチャ、シミュレーションと合成データのインフラ、拡大し続ける感覚チャネル、そして閉ループのインテリジェントエージェントの編成です。これらは、異分野間のフィードバック関係の中で相互に強化し合います。これらはまた、モデルの規模、物理的実現、新しいデータ形態の3つの相互作用によって質的変化をもたらす最も可能性の高い場所です――ちょうど、ショートカットが未だ完了していないからです。

図注:物理AIのための5つの基盤原語

具体的な応用に入る前に、これらの最先端システムが共有する技術的基盤を理解しましょう。物理世界にAIを推進するには、5つの主要な原語に依存しています。これらの技術は特定の応用分野に限定されず、「AIを物理世界に拡張する」システムを構築するための構成要素です。これらの同期した成熟が、今この瞬間を特別なものにしています。

図注:物理AIを支える5つの基盤原語

原語1:物理動力学の学習表現

最も根本的な原語は、圧縮された汎用的な物理世界の行動表現を学び出すことです――物体の運動、変形、衝突、力に対する反応など。これがなければ、各物理AIシステムはゼロからその領域の物理法則を学習しなければならず、そのコストは誰も負担できません。

いくつかのアーキテクチャ派閥が異なるアプローチでこの目標に迫っています。VLAモデルは上層からアプローチ:事前学習済みの視覚-言語モデル(これらはすでに物体、空間関係、言語の意味理解を備えている)に動作解読器を付加し、運動制御指令を出す仕組みです。ポイントは、「見る」ことと「世界を理解する」ことの巨大なコストを、インターネット規模の画像・テキスト事前学習で薄められることです。Physical Intelligenceのπ₀、Google DeepMindのGemini Robotics、NVIDIAのGR00T N1は、より大規模なスケールでこのアーキテクチャを検証しています。

WAMモデルは下層からアプローチ:インターネット規模の動画上で事前学習された動画拡散トランスフォーマーに基づき、物理動力学に関する豊富な先験(物体の落下、遮蔽、力を受けたときの相互作用)を継承し、それらを動作生成と結びつけます。NVIDIAのDreamZeroは、全く新しいタスクや環境に対してゼロショットの汎化を示し、少量の適応データから人間の動画デモを跨いだ本体間の移行を実現し、実世界への汎化能力を有意に向上させました。

3つ目のルートは、予訓練済みのVLMと動画拡散の骨格を丸ごとスキップします。GeneralistのGEN-1は、50万時間超の実物理的相互作用データを用いてゼロから訓練された具現化基礎モデルです。データは、日常操作を行う人々から低コストのウェアラブルデバイスで収集されます。これは標準的なVLA(視覚-言語の骨格を微調整していない)やWAMではなく、物理的相互作用に特化した基礎モデルです。インターネット画像やテキスト、動画の統計規則を学習するのではなく、人と物体の接触の統計規則を学びます。

World Labsのような空間知能を追求する企業にとって、この原語は価値があります。なぜなら、これらはVLA、WAM、原生的具現化モデルの共通の短所――シーンの三次元構造の明示的モデル化が欠如している点――を補完するからです。VLAは2Dの視覚特徴を継承し、WAMは動画から動力学を学び、動画は3Dの2D投影です。ウェアラブルセンサーから学習したモデルは力と運動学を捉えますが、シーンの幾何学は捉えられません。空間知能モデルはこれを補完し、物理環境の完全な3D構造を再構築・生成し、それに対して幾何、照明、遮蔽、物体関係、空間配置を推論します。

各ルートの収束自体が重要です。表現がVLM由来、動画協調学習、または物理的相互作用データからの原生的なものかに関わらず、基盤原語は同じです:圧縮された、移行可能な物理世界の行動モデルです。これらの表現が取り込むデータのフリューは非常に巨大で、多くは未だ動いていません――インターネット動画やロボットの軌跡だけでなく、ウェアラブルデバイスによる大量の人間身体経験のコーパスも含まれます。同じ表現は、毛巾を折るロボット、反応予測を行う自主実験室、運動皮質の握り意図を解読する神経デコーダーのいずれにも役立ちます。

原語2:具現化された動作に向けたアーキテクチャ

物理表現だけでは不十分です。「理解」を信頼できる物理的動作に翻訳するには、いくつかの相互に関連する問題を解決するアーキテクチャが必要です:高層の意図を連続的な運動指令にマッピング、長い動作列での一貫性維持、リアルタイム遅延下での運用、経験に基づく継続的な改善。

階層型の二重システムアーキテクチャは、複雑な具現化タスクの標準設計となっています:遅くて強力な視覚-言語モデルがシーン理解とタスク推論(System 2)を担当し、素早く軽量な視覚-運動戦略がリアルタイム制御(System 1)を担います。GR00T N1、Gemini Robotics、FigureのHelixは、このアプローチの変種を採用し、「大モデルによる豊富な推論」と「物理タスクのミリ秒制御要求」の根本的な緊張を解決しています。Generalistは別の道を歩み、「共振推論」により思考と動作を同時に進行させています。

動作生成メカニズムも急速に進化しています。π₀が開発した流れマッチングと拡散に基づく動作ヘッドは、滑らかで高頻度の連続動作を生成する主流の方法となり、言語モデル由来の離散トークン化に取って代わっています。これらの方法は、画像合成に似たノイズ除去過程として動作生成を行い、物理的により滑らかで誤差蓄積に対して堅牢な軌跡を産み出し、自回帰的なトークン予測より優れています。

しかし、アーキテクチャの最も重要な進展は、強化学習(RL)を事前学習済みVLAに拡張したことです。示範データ上で訓練された基盤モデルが、自律的な練習を通じて継続的に向上できる仕組みです。これは人間が反復練習と自己修正を通じてスキルを磨くのと類似しています。Physical Intelligenceのπ*₀.₆の研究は、この原則の最も明確なスケール化された実証例です。彼らの手法はRECAP(優位条件戦略に基づく経験と修正強化学習)と呼ばれ、長いシーケンスの信用割り当てが難しい模倣学習の課題を解決します。例えば、ロボットが少し斜めの角度でエスプレッソマシンのハンドルを掴もうとした場合、失敗はすぐには現れず、数ステップ後に明らかになることがあります。模倣学習にはこの失敗を早期に遡って原因を特定する仕組みがなく、RLにはあります。RECAPは、成功確率を中間状態から推定する価値関数を訓練し、VLAに高優位性の動作を選ばせる仕組みです。重要なのは、多様なデータ――示範データ、戦略の自主経験、遠隔操作による修正――を一つの訓練パイプラインに統合している点です。

この方法の成果は、動作分野におけるRLの将来性にとって良い知らせです。π*₀.₆は、実家庭環境で未見の衣類50種類を連続的に折りたたみ、段ボールを確実に組み立て、専門機械でエスプレッソを作り続け、数時間の連続運用でも人の介入不要です。最も難しいタスクでは、RECAPは純粋模倣と比べてスループットを2倍以上にし、失敗率も半減させました。このシステムはまた、RL後の訓練によって、より滑らかな回復動作や効率的な掴み戦略、示範データに存在しない適応的誤り修正を生み出すことも証明しています。

これらの成果は一つのことを示しています:GPT-2からGPT-4へのスケーリング動力が、具現化領域でも動き始めているということです。ただし、今は曲線のより早い段階にあり、動作空間は連続的で高次元、かつ物理世界の無慈悲な制約に直面しています。

原語3:スケーリング基盤としてのシミュレーションと合成データ

言語の分野では、データ問題はインターネットによって解決されました:自然に生成され、無料で得られる兆単位のトークンテキストです。一方、物理世界の問題ははるかに複雑で、これは今や共通認識となっています。最も直接的な兆候は、物理世界のデータ供給企業のスタートアップが急増していることです。実世界のロボット軌跡の収集コストは高く、規模化にはリスクも伴い、多様性も限定的です。言語モデルは10億回の対話から学習できますが、ロボットは(現時点では)10億回の物理的相互作用を持てません。

シミュレーションと合成データ生成は、この制約を解決するための基盤インフラです。これらの成熟は、物理AIが今日に至る加速の一因です。

現代のシミュレーションスタックは、物理ベースのシミュレータ、光線追跡によるフォトリアルレンダリング、プログラム化された環境生成、そしてシミュレーション入力からフォトリアル動画を生成する世界基盤モデルを組み合わせています。後者は、sim-to-realのギャップを埋める役割を果たします。全体のパイプラインは、実環境の神経再構築(スマホ一台で可能)から始まり、物理的に正確な3D資産の充填、そして自動ラベリング付きの大規模合成データ生成へと進みます。

このシミュレーションスタックの改良は、その経済的仮定を変えつつあります。物理AIのボトルネックが「実データ収集」から「多様な仮想環境の設計」へとシフトすれば、コスト曲線は崩壊します。シミュレーションは計算能力の拡大に伴い、人手やハードウェアに依存しません。この変革は、インターネットのテキストデータが言語モデルの訓練を変えたのと同じです――仮想インフラへの投資は、エコシステム全体のレバレッジを非常に高めます。

ただし、シミュレーションはロボットの原語だけではありません。同じインフラは、自律科学(実験室のデジタルツイン、仮想反応環境)、新型インターフェース(BCI解読用の神経環境、センサーキャリブレーション用の合成感覚データ)、その他のAIと物理世界の相互作用分野にも応用されます。シミュレーションは、物理世界AIの汎用データエンジンです。

原語4:拡張された感覚チャネル

物理世界からの情報伝達信号は、視覚や言語よりもはるかに豊富です。触覚は材料の属性、掴みの安定性、接触の幾何情報を伝え、カメラでは捉えきれない情報を提供します。神経信号は、既存の人機インターフェースをはるかに超える帯域幅で運動意図、認知状態、感覚経験を符号化します。声帯筋の活動は、音声生成の前に言語意図を符号化します。第4の原語は、これらの従来捉えにくかった感覚モダリティに対し、AIが高速に拡張することです――研究だけでなく、消費者向けデバイスやソフトウェア、インフラのエコシステムも含みます。

図注:拡大するAI感覚チャネル、AR、EMG、脳-機械インターフェース

最も直感的な指標は、新規カテゴリのデバイスの登場です。ARデバイスは近年、体験と形態の両面で大きく改善され(すでに消費や産業用途に展開)、音声優先のウェアラブルは言語AIにより豊かな物理環境の文脈をもたらしています。長期的には、神経インターフェースはより完全なインタラクションモダリティを開き得ます。AIによる計算方式の変化は、人機インタラクションを大きく進化させる機会を創出し、Sesameのような企業は新たなモダリティとデバイスを開発しています。

音声は、より主流のモダリティとして、新たなインタラクション方式の追い風となっています。Wispr Flowのような製品は、音声を主要入力方式に推進しています(情報密度が高く、自然な優位性があるため)、無声音声インターフェースの市場も拡大しています。無声音声デバイスは、舌や声帯の動きを多種のセンサーで捉え、言語を無声で認識します――これは、より高密度な人機インタラクションモダリティです。

脳-機械インターフェース(侵襲型・非侵襲型)は、より深い最先端を代表します。商業エコシステムは着実に進展しています。信号は臨床検証、規制承認、プラットフォーム統合、資金調達の交点に現れつつあります――これは、数年前までは純粋に学術的な技術分野でした。

触覚感覚も具現化AIの一部として進展しています。ロボット学習の一部モデルは、触覚を明示的に取り込み始めています。嗅覚インターフェースも実用化の段階に入りつつあります。ウェアラブルの嗅覚ディスプレイは、微小な香り発生器とミリ秒級応答を備え、混合現実アプリでデモされています。嗅覚モデルは視覚AIとペアリングされ、化学工場の監視に用いられています。

これらの発展の共通規則は、極限において互いに収束しつつあることです。AR眼鏡はユーザと物理環境のインタラクションの視覚・空間データを継続的に生成し、EMGリストバンドは人間の運動意図の統計規則を捉え、無声音声インターフェースは声帯の発音から言語出力へのマッピングを捉え、BCIは最高分解能で神経活動を記録します。触覚センサーは物理操作の接触動力学を捉えます。これらの新規デバイスは、同時に複数の応用分野の基盤モデルを喂養するデータ生成プラットフォームでもあります。EMGを用いた運動意図推定ロボットと、遠隔操作データだけで訓練されたロボットの掴み戦略は異なります。亞声帯指令に応答する実験室インターフェースと、キーボード制御の実験室も、科学者と機械のインタラクション方式を大きく変えます。高密度BCIデータで訓練された神経解読器は、他のチャネルでは得られない運動計画表現を産出します。

これらのデバイスの普及は、物理AIの最先端システムが利用可能なデータの次元を拡大しています――この拡大の多くは、資金に余裕のある消費財企業によるものであり、学術研究だけにとどまりません。つまり、データのフリューは、市場の採用とともに拡大していきます。

原語5:閉ループエージェントシステム

最後の原語は、よりアーキテクチャ的な側面です。これは、感知、推論、動作の編成を持続的かつ自律的に行う閉ループシステムを指します。長時間にわたり人の介入なしに動作します。

言語モデルにおいては、これに対応するのはエージェントシステムの台頭です。多段階の推論連鎖、ツールの使用、自己修正のプロセスにより、モデルは単なる一回質問応答から、自律的な問題解決者へと進化しています。物理世界でも同様の変化が起きつつあり、要求ははるかに厳しいです。言語AIは誤りを無償で巻き戻せますが、物理AIは一度倒した試薬瓶を元に戻せません。

物理世界のエージェントシステムは、次の3つの特徴によってデジタル版と区別されます:第一、実験や運用を閉ループに組み込む必要があること。原始的な計測器データや物理状態センサー、実行原語と直接連携し、推論を物理的現実に落とし込みます。第二、長いシーケンスの持続性が必要です:記憶、追跡、セキュリティ監視、回復行動を複数の運用サイクルにわたって連結します。第三、閉ループ適応が必要です:物理的結果に基づき戦略を修正し、文字列のフィードバックだけに頼りません。

この原語は、優れた世界モデル、信頼できる動作アーキテクチャ、多様なセンサー群を融合し、物理世界で自律的に動作できる完全なシステムにします。これは、応用分野において、実環境に展開可能な「システム」としての成熟の前提です。

三つの領域

上記の原語は汎用的なエネーブル層であり、最も重要な応用がどこに展開されるかを直接示すものではありません。多くの領域は、物理的な動作、測定、感知に関わります。「最先端システム」と「単なる既存システムの改良版」を区別するのは、モデル能力の向上とスケーリング基盤の複利効果の程度です――単なる性能向上ではなく、かつてできなかった新たな能力の出現です。

ロボット、AI駆動の科学、自律人機インターフェースは、このような複利効果が最も強い3つの領域です。各々が独自の方法で原語を組み合わせ、また、これらの原語が解き放つ制約に縛られながらも、運用過程で副産物的に構造化された物理データを生成します。このデータは、逆に原語そのものをより良くし、フィードバックループを形成し、システム全体の加速を促します。これらは唯一の物理AIの領域ではありませんが、最先端のAI能力と物理的現実のインタラクションが最も密接な場所であり、また、現行の言語/コードパラダイムから最も遠く、新たな能力の出現空間が最大の場所でもあります――かつ、これらは高度に相補的であり、その恩恵を享受できます。

ロボット

ロボットは、最も文字通りの物理AIの具現化です:リアルタイムで感知、推論し、物理的に世界に作用するシステムです。これはまた、各原語に対して負荷テストを行う存在でもあります。

想像してみてください。汎用ロボットがタオルを折りたたむにはどれだけの作業が必要か。変形材料の力学的挙動を学習した表現――物理的な先験――が必要です。高層の指示を20Hz以上の連続運動指令に翻訳する動作アーキテクチャ。シミュレーション生成の訓練データ(実際に何百万回も折りたたみデモを収集できないため)。滑りを検知し掴み力を調整する触覚フィードバック。誤ったときにエラーを認識し回復できる閉ループコントローラ。これらすべてが必要です。

図注:ロボットのタスクは5つの原語を同時に呼び出す

これが、ロボットが成熟したツールではなく、最先端のシステムである理由です。これらの原語は、既存のロボット能力の改良ではなく、従来の狭い制御環境を超えた操作、運動、インタラクションの新たなカテゴリーを解き放ちます。

過去数年、最先端の進展は著しいものでした――以前も書きました。第一世代のVLAは、基盤モデルがロボットの多様なタスクを制御できることを証明しました。アーキテクチャの進歩は、ロボットの高層推論と低層制御をつなぎます。端末側の推論も可能になり、少ないデータで新しいロボットプラットフォームに適応できるようになっています。残る核心的な課題は、スケールの信頼性です。成功率95%では、10ステップのタスクチェーンでは60%しか成功しません。実環境ではこれでは不十分です。RL後訓練は、この分野のスケーリングに必要な能力と堅牢性の壁を突破する可能性があります。

これらの進展は、市場構造にも影響します。ロボット産業の価値は長年、機械システムに蓄積されてきましたが、学習戦略の標準化により、その価値はモデルや訓練インフラ、データフリューに移行しつつあります。ロボットはまた、これらの原語をフィードバックします。実環境の軌跡は、世界モデルの訓練データとなり、シミュレーションのカバー範囲の不足を露呈し、新たな本体のテストは、より多様な物理経験の蓄積につながります。ロボットは、最先端の原語の最も厳しい消費者であり、また、最も重要な改善の信号源の一つです。

自主科学

ロボットが「リアルタイムの物理動作」で原語を試すとすれば、自律科学は少し異なることを試しています――複雑な因果関係を持つ物理システムに対し、長期の多段階推論を行い、時間軸は数時間から数日まで。実験結果は解釈・状況化され、戦略の修正に用いられます。

図注:自主科学(AI科学者)が5つの原語を統合する方法

AI駆動の科学は、原語の組み合わせの中でも最も徹底的な領域です。自動運転実験室(SDL)は、物理・化学の動力学表現を学び、実験の結果を予測します。具現化された動作は、液体の移動やサンプルの位置決め、分析器の操作に必要です。シミュレーションは候補実験の事前選別や希少な装置時間の最適配分に使われます。拡張された感覚能力――分光、クロマトグラフィー、質量分析、そして新たな化学・生物センサー――は結果の表現に役立ちます。これらは、複数の「仮説-実験-分析-修正」サイクルを無人で維持できる閉ループインテリジェントエージェントの編成を最も必要とする分野です。

他の分野と比べて、これほど深く原語を呼び出すのは稀です。これが自主科学が「システム」の最先端であり、単なる実験室の自動化ではない理由です。Periodic LabsやMedraのような企業は、材料科学や生命科学の分野で、科学推論と物理検証を融合させ、科学の反復を実現し、実験訓練データを生み出しています。

このシステムの価値は直感的に明らかです。従来の材料発見は、概念から商業化までに数年を要しましたが、AIの加速により、その期間は大幅に短縮可能です。重要な制約は、仮説生成(基盤モデルが補助)から、製造と検証(物理装置、ロボット、閉ループ最適化)へとシフトしています。SDLはこのボトルネックを突破しようとしています。

自主科学のもう一つの重要な特徴は、すべての物理世界システムに共通する役割――データエンジンです。SDLが行う各実験は、単なる科学結果だけでなく、物理的に実現された訓練信号です。特定条件下での高分子の結晶化の測定は、材料動力学の世界モデルを豊かにします。合成経路の検証は、物理推論の訓練データとなります。失敗の表現は、予測の誤りを示し、システムの改善に役立ちます。AI科学者が実験から得るデータは、インターネットのテキストやシミュレーション出力とは性質が異なり、構造化・因果的・実証済みのものです。これこそ、物理推論モデルにとって最も必要とされる、他に得られないデータです。自主科学は、物理現実を直接構造化知識に変換し、物理AIエコシステムを改善する道筋です。

新型インターフェース

ロボットがAIを物理動作に拡張し、自律科学がAIを物理研究に拡張したのに対し、新型インターフェースは、AIと人間の感覚・感知・身体信号を直接結びつけるものです――AR眼鏡、EMGリストバンド、埋め込み型脳-機械インターフェースまで横断します。これらを結びつけるのは、単一技術ではなく、共通の機能です:人間の知能とAIシステム間の通信帯域とモダリティを拡張し、その過程で、物理AI構築に直接使える人間-世界のインタラクションデータを生成します。

図注:AR眼鏡から脳-機械インターフェ

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン