作者 ダール
編集 董雨晴
「家庭は確かに具現知能の聖杯だ。」2026年3月30日午前、深圳零一学院にて、自律変数ロボット共同創業者兼CTOの王昊が、インタビューでこの判断を示した。当時は第1回具現知能開発者会議(EAIDC 2026)の開催期間中で、決勝に進んだ20のトップチームがここに集結し、参加者には、ゼロからデータ収集、モデル学習、真機へのデプロイまでの全プロセスを行うための3日間しかなかった。
ほぼすべての同業が2026年においてまずは産業シーンの受注を優先して取りに行く中、自律変数はより冒険的な道を選んだ。今年3月、自律変数は58同城と連携すると発表し、58から家のプラットフォームがア姨とロボットの組み合わせをランダムに手配し、家事サービスを共同で実施しており、すでに深圳で試験導入を開始している。家庭――標準化の度合いが最も低く、環境が最もオープンなシーン――が、自律変数の心の中で「汎用ロボットへの道」を切り開く重要な戦場になりつつある。
01 ロボットを現実世界に引き戻すためのレース
今回のEAIDC 2026の競技方式は、かなり趣がある。すべての参加チームは同一のハードウェアプラットフォームを使用し、3日以内に、具現知能基盤モデルと実機のデバッグに初めて触れた状態から、データ収集から真機へのデプロイまでの全プロセスを完了する。通常、専門の研究ラボが同様の構築を行うには少なくとも6か月かかる。
王昊の観察によれば、競技開始の初日午後ですでに明確な差が出た。「初日の午後に開幕して、夜になると、ある選手は環境をまだデバッグしていて、別の選手はもう成績が出ている。これは非常に大きな差だ。」その後彼は、頻繁に評価を行い、データやハードウェアを注意深く観察するチームは、手を動かさない選手よりも際立っていたと気づいた。「この“具現”はインタラクションによる学習で、機械がテストや、人によるその観察の中で問題を見つける。物理世界の複雑さの本当の解法を見つけられる可能性が高い。」
ある参加選手は後に、最初に「輪を柱に通す」タスクに向き合った際、成功率は20%から30%にすぎなかったが、反復して改善を重ね、最終的に60%から70%まで引き上げられたと回想している。
競技にはAランクとBランクも用意されている。Aランクの環境は制御可能で、選手がモデルの能力を素早く検証できる。Bランクは完全なブラックボックスで、照明、背景、操作対象、操作位置が変わった場合にモデルが汎化できる能力を試す。王昊は、これが競技を行う当初の狙いだと述べる。「この試合を通じて、オープンソースのプロジェクト全体が開発者の利用における参入障壁を下げられるようにし、比較的汎用的で標準的なインターフェースを構築したい。」
長期にわたりシミュレーションによる評価に依存してきた具現知能業界では、シミュレーション環境は反復を加速できる一方、現実世界の複雑性を再現するのは難しく、sim2real(シミュレーション環境から現実世界へ移行する技術的手法)のギャップは常に存在する。王昊は率直に言う。「長期にシミュレーション評価に依存すると、モデル能力の実際の境界が、避けられずに覆い隠されてしまう。」そしてEAIDCという“実機による演武の場”は、評価、学習、データ収集の3つを、同じ現実世界へと再び引き戻そうとしている。
02 エンドツーエンドの「新しい物語」?
自律変数は最初から「大小脳の統一によるエンドツーエンドの大規模モデル」路線を選んだ。技術アーキテクチャにおいて、チームは世界モデルとVLA(視覚-言語-行動)モデルを、単一の統合フレームワークの下で融合させようと試みている。
王昊はこの路線の基底ロジックを説明した。「大規模言語モデルの学習をベースにすること自体は依然として必要だ。ただし、これまでのようにすべての視覚を言語のために奉仕させるのではなく、言語と行動を同じ空間の中に持っていきたいのだ。言語による記述が伝える情報は非常に俯瞰的だが、物理世界での相互作用はセンチメートル級、秒級のスケールで起きる。両者の間には、巨大な情報ギャップがある。もしネイティブなマルチモーダル方式を採用できれば、行動はマクロとミクロの両方で非常に明確に表現され、視覚をこれまでの静的な観察から、運動を理解するための視覚へと変えられる。」
これは、現在多くのVLAモデルに見られる単純化された設計とは対照的だ。業界の観察者は、多くの具現モデルは依然として単純化に寄っており、多くのVLAモデルは依然として単一フレームの画像入力に依存していると指摘している。
王昊は、エンドツーエンドモデルの最大の課題は学習の複雑さと規模要件だと考えている。「この2つの条件が揃っていなければ、エンドツーエンドを選んでも、特化型の小規模モデルや階層型モデルを選んだ場合ほど効果が出ない可能性がある。エンドツーエンドには規模の効果が不可欠で、データ量やモデルパラメータ数を引き上げる必要がある。」さらに具現知能の評価は、言語大規模モデルよりも厄介だ。「言語大規模モデルならloss曲線を見ることができるが、具現に関しては往々にしてそうではない。lossは、現実世界でのパフォーマンスを反映できない。なぜなら現実世界はクローズドループのシステムだからだ。」
自律変数のもう一つの中核戦略は、現実世界の真機データ収集を堅持することだ。王昊は、「インタラクティブ学習や強化学習で最も重要なデータは真機から来る。このデータ収集は止まらず、さらに続けていく」と述べた。一方で彼は、2026年には大きな変化があるとも明かしている――「ますます、人のウェアラブル式、あるいはEgo-Centricの方法でデータを収集するようになる。」
データのクローズドループ構築は、自律変数のもう一つの重要命題だ。王昊はこう言う。「できるだけ早く、人と機械が協働する形でクローズドループを回す。まず高品質なデータと大規模学習で基盤モデルを構築する。すべてのタスクを解決できるわけではないが、それを現実環境に投入して開始すべきだ。うまくいかない部分があれば、人が引き継ぎ、そこから誤りを復旧させる。そうしたデータも非常に貴重な源泉になる。」彼が説明しているのは、評価、学習、データ収集が同一のプロセスの中で完結する一連のシステムだ。
03 なぜ家庭なのか?
実際のところ業界では、家庭シーンの成熟した実用化には5年から10年待つ必要があるという見方が一般的だ。多くのメーカーは商用化において、産業シーンを選ぶ傾向が強い――環境が制御でき、タスクが単一で、ROIが算定可能だからだ。2026年の初めには、評価額が100億級のロボット企業がいくつも出現した。一方で家庭サービスという方向性では、現時点では真に意味のある成熟プレイヤーはいない。
王昊は、異なる解き方を提示した。「家庭は最もオープンな環境であり、最も幅広いタスクを代表する。家庭のタスクを解決できれば、それはモデルが完全に汎化できることを意味する。最初から最も複雑なシーンに真正面から向き合うからこそ、モデルの知能化レベルを引き上げられる。いつ始めるかにかかわらず、早いほどいい。これが最も重要だ。」
しかし、家庭に入るにはいくつかの重要な難点がある。1つ目はゼロショット汎化能力――モデルは推論で成功ルートを探索しなければならず、事前学習に依存してはいけない。「家庭に入る最初は、モデルを訓練する機会があまりない。この時点では、モデルの推論能力を引き出し、家庭シーンの中で推論によって成功例を探索させる必要がある。」2つ目は長距離操作の精密さだ。「現在、基盤モデルが家庭に入っても、多くのタスクで完成の傾向や動作意図がある。例えば、どんな物体にも手を伸ばして掴みにいく傾向が出せる。ただし精密さが足りない。その結果、複雑な長距離タスクで誤りが蓄積し、失敗してしまう。」
王昊は、長距離の精密さ問題を解くための2つの鍵を説明した。1つ目はモデルの推論能力を引き出すことだ。「言語を視覚と組み合わせて推論し、言語・視覚・行動が同じレベルで思考の鎖を形成し、ロボットが自分で計画し振り返る。」2つ目は大規模な真機環境で強化学習を行うことだ。「基盤モデルの標準の範囲内で、より高いレベルの空間精度を維持する。」
王昊は、「通常の清掃や整理整頓のようなタスクは、1年から2年で完全な自律化を実現できる」と見込んでいる。しかし「すべての家庭タスクでクローズドループを実現するには、さらに少し時間がかかるかもしれない。」
これは、自律変数CEOの王潜の発言とも呼応している。王潜はインタビューで、「今年中に、ロボットが正のROIという形で商業化の着地を見られる」と述べていた。家庭シーンの推進ペースは明らかに遅いが、それでもより長期的だ。
現在の具現知能の分野で最も関心を集める論争的トピックに戻ると、技術ルートの選択と商業化、どちらが軽くてどちらが重いのか?
「具現のことに関して言えば、商業のために技術を犠牲にして得られる達成の天井は高くならない。本当に高い天井とは、商業と技術が協調して進むこと。技術が段階的に商業の発展を押し進めるところにある。」王昊は、自律変数の主線は基盤モデルを止めずに反復し続けることだと考えている。「ただし一点、垂直シーンであまりにも多くのモデルシステムを作り、着地のために多くのエンジニアリング上の補填をするのはやめるべきだ。例えば、ロボットに視覚の盲点があると分かったら、小さなモデルを作って検出する。短期的には着地を加速させる助けになるが、長期的には基盤モデルの向上にとって害になる。」
このこだわりは、自律変数がシーン選択を行うロジックとも一致している――シーンを選ぶ最初の根拠は、それが基盤モデルの能力をフィードバックできるかどうかを見ることだ。「先に、技術を完全に汎化するところまで作ってからシーンを考えるわけではない。まったく逆だ。シーンがあなたを反復させ、反復が基盤モデルをより強くし、より強い基盤モデルが再び商業を押し上げて、初めて完全なクローズドループが形成される。」
彼は、基盤モデルを作るための投資は常に非常に大きいと明かしている。同社は設立初日から、データ、計算資源、基盤インフラに大規模に投資してきた。「一度、規模による効果ができると、あなたが10倍のリソースを投じて先行するようになったとき、リソースが集まる効果はますます明らかになる。あなたは数の桁の優位性によって、スピードで相手を上回れる。早く始めるほど優位になり、遅く始めるほど難しくなる。」
(編集者:劉静 HZ010)
【免責事項】本記事は著者自身の見解のみを代表し、和訊とは一切関係ありません。和訊サイトは、記事中の記述、見解判断について中立の立場を保ち、含まれる内容の正確性、信頼性、完全性についていかなる明示または黙示の保証も提供しません。読者の皆さまは参考としてのみご利用いただき、またすべての責任を各自で負ってください。メール:news_center@staff.hexun.com
通報
206.08K 人気度
223.5K 人気度
22.74K 人気度
120.8K 人気度
1.33M 人気度
対話の独立変数CTO王昊:具身知能の「聖杯」なぜ家庭なのか?
作者 ダール
編集 董雨晴
「家庭は確かに具現知能の聖杯だ。」2026年3月30日午前、深圳零一学院にて、自律変数ロボット共同創業者兼CTOの王昊が、インタビューでこの判断を示した。当時は第1回具現知能開発者会議(EAIDC 2026)の開催期間中で、決勝に進んだ20のトップチームがここに集結し、参加者には、ゼロからデータ収集、モデル学習、真機へのデプロイまでの全プロセスを行うための3日間しかなかった。
ほぼすべての同業が2026年においてまずは産業シーンの受注を優先して取りに行く中、自律変数はより冒険的な道を選んだ。今年3月、自律変数は58同城と連携すると発表し、58から家のプラットフォームがア姨とロボットの組み合わせをランダムに手配し、家事サービスを共同で実施しており、すでに深圳で試験導入を開始している。家庭――標準化の度合いが最も低く、環境が最もオープンなシーン――が、自律変数の心の中で「汎用ロボットへの道」を切り開く重要な戦場になりつつある。
01 ロボットを現実世界に引き戻すためのレース
今回のEAIDC 2026の競技方式は、かなり趣がある。すべての参加チームは同一のハードウェアプラットフォームを使用し、3日以内に、具現知能基盤モデルと実機のデバッグに初めて触れた状態から、データ収集から真機へのデプロイまでの全プロセスを完了する。通常、専門の研究ラボが同様の構築を行うには少なくとも6か月かかる。
王昊の観察によれば、競技開始の初日午後ですでに明確な差が出た。「初日の午後に開幕して、夜になると、ある選手は環境をまだデバッグしていて、別の選手はもう成績が出ている。これは非常に大きな差だ。」その後彼は、頻繁に評価を行い、データやハードウェアを注意深く観察するチームは、手を動かさない選手よりも際立っていたと気づいた。「この“具現”はインタラクションによる学習で、機械がテストや、人によるその観察の中で問題を見つける。物理世界の複雑さの本当の解法を見つけられる可能性が高い。」
ある参加選手は後に、最初に「輪を柱に通す」タスクに向き合った際、成功率は20%から30%にすぎなかったが、反復して改善を重ね、最終的に60%から70%まで引き上げられたと回想している。
競技にはAランクとBランクも用意されている。Aランクの環境は制御可能で、選手がモデルの能力を素早く検証できる。Bランクは完全なブラックボックスで、照明、背景、操作対象、操作位置が変わった場合にモデルが汎化できる能力を試す。王昊は、これが競技を行う当初の狙いだと述べる。「この試合を通じて、オープンソースのプロジェクト全体が開発者の利用における参入障壁を下げられるようにし、比較的汎用的で標準的なインターフェースを構築したい。」
長期にわたりシミュレーションによる評価に依存してきた具現知能業界では、シミュレーション環境は反復を加速できる一方、現実世界の複雑性を再現するのは難しく、sim2real(シミュレーション環境から現実世界へ移行する技術的手法)のギャップは常に存在する。王昊は率直に言う。「長期にシミュレーション評価に依存すると、モデル能力の実際の境界が、避けられずに覆い隠されてしまう。」そしてEAIDCという“実機による演武の場”は、評価、学習、データ収集の3つを、同じ現実世界へと再び引き戻そうとしている。
02 エンドツーエンドの「新しい物語」?
自律変数は最初から「大小脳の統一によるエンドツーエンドの大規模モデル」路線を選んだ。技術アーキテクチャにおいて、チームは世界モデルとVLA(視覚-言語-行動)モデルを、単一の統合フレームワークの下で融合させようと試みている。
王昊はこの路線の基底ロジックを説明した。「大規模言語モデルの学習をベースにすること自体は依然として必要だ。ただし、これまでのようにすべての視覚を言語のために奉仕させるのではなく、言語と行動を同じ空間の中に持っていきたいのだ。言語による記述が伝える情報は非常に俯瞰的だが、物理世界での相互作用はセンチメートル級、秒級のスケールで起きる。両者の間には、巨大な情報ギャップがある。もしネイティブなマルチモーダル方式を採用できれば、行動はマクロとミクロの両方で非常に明確に表現され、視覚をこれまでの静的な観察から、運動を理解するための視覚へと変えられる。」
これは、現在多くのVLAモデルに見られる単純化された設計とは対照的だ。業界の観察者は、多くの具現モデルは依然として単純化に寄っており、多くのVLAモデルは依然として単一フレームの画像入力に依存していると指摘している。
王昊は、エンドツーエンドモデルの最大の課題は学習の複雑さと規模要件だと考えている。「この2つの条件が揃っていなければ、エンドツーエンドを選んでも、特化型の小規模モデルや階層型モデルを選んだ場合ほど効果が出ない可能性がある。エンドツーエンドには規模の効果が不可欠で、データ量やモデルパラメータ数を引き上げる必要がある。」さらに具現知能の評価は、言語大規模モデルよりも厄介だ。「言語大規模モデルならloss曲線を見ることができるが、具現に関しては往々にしてそうではない。lossは、現実世界でのパフォーマンスを反映できない。なぜなら現実世界はクローズドループのシステムだからだ。」
自律変数のもう一つの中核戦略は、現実世界の真機データ収集を堅持することだ。王昊は、「インタラクティブ学習や強化学習で最も重要なデータは真機から来る。このデータ収集は止まらず、さらに続けていく」と述べた。一方で彼は、2026年には大きな変化があるとも明かしている――「ますます、人のウェアラブル式、あるいはEgo-Centricの方法でデータを収集するようになる。」
データのクローズドループ構築は、自律変数のもう一つの重要命題だ。王昊はこう言う。「できるだけ早く、人と機械が協働する形でクローズドループを回す。まず高品質なデータと大規模学習で基盤モデルを構築する。すべてのタスクを解決できるわけではないが、それを現実環境に投入して開始すべきだ。うまくいかない部分があれば、人が引き継ぎ、そこから誤りを復旧させる。そうしたデータも非常に貴重な源泉になる。」彼が説明しているのは、評価、学習、データ収集が同一のプロセスの中で完結する一連のシステムだ。
03 なぜ家庭なのか?
実際のところ業界では、家庭シーンの成熟した実用化には5年から10年待つ必要があるという見方が一般的だ。多くのメーカーは商用化において、産業シーンを選ぶ傾向が強い――環境が制御でき、タスクが単一で、ROIが算定可能だからだ。2026年の初めには、評価額が100億級のロボット企業がいくつも出現した。一方で家庭サービスという方向性では、現時点では真に意味のある成熟プレイヤーはいない。
王昊は、異なる解き方を提示した。「家庭は最もオープンな環境であり、最も幅広いタスクを代表する。家庭のタスクを解決できれば、それはモデルが完全に汎化できることを意味する。最初から最も複雑なシーンに真正面から向き合うからこそ、モデルの知能化レベルを引き上げられる。いつ始めるかにかかわらず、早いほどいい。これが最も重要だ。」
しかし、家庭に入るにはいくつかの重要な難点がある。1つ目はゼロショット汎化能力――モデルは推論で成功ルートを探索しなければならず、事前学習に依存してはいけない。「家庭に入る最初は、モデルを訓練する機会があまりない。この時点では、モデルの推論能力を引き出し、家庭シーンの中で推論によって成功例を探索させる必要がある。」2つ目は長距離操作の精密さだ。「現在、基盤モデルが家庭に入っても、多くのタスクで完成の傾向や動作意図がある。例えば、どんな物体にも手を伸ばして掴みにいく傾向が出せる。ただし精密さが足りない。その結果、複雑な長距離タスクで誤りが蓄積し、失敗してしまう。」
王昊は、長距離の精密さ問題を解くための2つの鍵を説明した。1つ目はモデルの推論能力を引き出すことだ。「言語を視覚と組み合わせて推論し、言語・視覚・行動が同じレベルで思考の鎖を形成し、ロボットが自分で計画し振り返る。」2つ目は大規模な真機環境で強化学習を行うことだ。「基盤モデルの標準の範囲内で、より高いレベルの空間精度を維持する。」
王昊は、「通常の清掃や整理整頓のようなタスクは、1年から2年で完全な自律化を実現できる」と見込んでいる。しかし「すべての家庭タスクでクローズドループを実現するには、さらに少し時間がかかるかもしれない。」
これは、自律変数CEOの王潜の発言とも呼応している。王潜はインタビューで、「今年中に、ロボットが正のROIという形で商業化の着地を見られる」と述べていた。家庭シーンの推進ペースは明らかに遅いが、それでもより長期的だ。
現在の具現知能の分野で最も関心を集める論争的トピックに戻ると、技術ルートの選択と商業化、どちらが軽くてどちらが重いのか?
「具現のことに関して言えば、商業のために技術を犠牲にして得られる達成の天井は高くならない。本当に高い天井とは、商業と技術が協調して進むこと。技術が段階的に商業の発展を押し進めるところにある。」王昊は、自律変数の主線は基盤モデルを止めずに反復し続けることだと考えている。「ただし一点、垂直シーンであまりにも多くのモデルシステムを作り、着地のために多くのエンジニアリング上の補填をするのはやめるべきだ。例えば、ロボットに視覚の盲点があると分かったら、小さなモデルを作って検出する。短期的には着地を加速させる助けになるが、長期的には基盤モデルの向上にとって害になる。」
このこだわりは、自律変数がシーン選択を行うロジックとも一致している――シーンを選ぶ最初の根拠は、それが基盤モデルの能力をフィードバックできるかどうかを見ることだ。「先に、技術を完全に汎化するところまで作ってからシーンを考えるわけではない。まったく逆だ。シーンがあなたを反復させ、反復が基盤モデルをより強くし、より強い基盤モデルが再び商業を押し上げて、初めて完全なクローズドループが形成される。」
彼は、基盤モデルを作るための投資は常に非常に大きいと明かしている。同社は設立初日から、データ、計算資源、基盤インフラに大規模に投資してきた。「一度、規模による効果ができると、あなたが10倍のリソースを投じて先行するようになったとき、リソースが集まる効果はますます明らかになる。あなたは数の桁の優位性によって、スピードで相手を上回れる。早く始めるほど優位になり、遅く始めるほど難しくなる。」
(編集者:劉静 HZ010)
通報