具身知能の「データ暗闘」が静かに始まっている。今年1月、湖北省のヒューマノイドロボットイノベーションセンターは、智元ロボットに対して数千時間の訓練データを提供し、国内初のカスタマイズ型ヒューマノイドロボットのデータ取引を完了した。業界大手では、京東が「世界最大規模、最も多様なシナリオを持つ具身知能データ収集センターの構築」を掲げ、1万人超の内部社員と最大50万人の外部人員を動員し、前例のない「人海戦術」を展開する計画を発表した。海外に目を向けると、韓国のロボット企業Robotisは今年1月、ウズベキスタンに子会社を設立し、11万平方メートルの土地に巨大な「データ工場」を建設し、ロボットの行動データを収集する予定だ。**時間単位の課金によるカスタマイズ取引、数十万人の大動員、中央アジアへの工場建設――これら一連の施策は、具身知能業界全体の重い「データ不安」を映し出している。**インターネットのコーパスで育った大規模言語モデルと異なり、具身知能は世界を理解し、実世界と相互作用する必要があるため、データの真実性やモダリティなどに対してより高い要求が課されている。これもまた、原力灵机の創業者兼CEOの唐文斌が現在取り組む難題の一つだ。**経歴を振り返ると、唐文斌は、前回のAIブームのスター・ユニコーン企業である旷视科技の共同創業者兼CTOとしてより知られている。**設立からわずか1年の原力灵机は、すでに10億元超の資金を調達し、阿里、蔚来、君联、启明などのトップ機関から投資を受けている。現在、原力灵机は自社の最初の具身原生大モデルDM0をリリースし、華勤技術と戦略的提携を結び、データ収集ロボットDOS-W1の量産と納品を実現している。**AIの実用化の洗礼を経て、唐文斌は業界に対してより深い畏敬の念を抱いている。**最近のウォール街見聞・全天候科技との対話で、唐文斌は原力灵机のデータ収集の考え方を共有した:単一の情報源に頼らず、「質✖量✖多様性」の組み合わせによる分散収集を行い、ロボットの能力空間を満たす。世界モデルを用いてデータを生成し、ロボットが模倣学習できるルートについて、唐文斌は「この道は難しい」と考えている。彼は、より実現可能なパラダイムとして、世界モデルとVLA(視覚・言語・動作)モデルの統合を挙げている。つまり、未来の世界を予測できるだけでなく、それに基づいて必要な正確な動作を逆推できることだ。業界のプレイヤーたちがそれぞれの方法で「データ備蓄」に狂奔している中、どのルートが「最後に笑う」ことになるのか、市場は見守っている。以下は対話の記録。データ収集の詳細------**全天候科技:あなた方のデータ収集の考え方について共有いただけますか?****唐文斌:**今のところ、私たちは強化学習の模倣を基本としています。模倣はデータ分布のシミュレーションを伴います。私たちの目標は、できるだけ多くのものを見せて、ロボットの能力空間を埋めることです。未見のシナリオへの対応能力を識別することが核心であり、その価値はそこにあります。したがって、私たちのデータ収集はオープン環境や実シナリオを中心に展開しています。ただし、データの質を高めつつ、できるだけ多様性を持たせることも重視しており、これは「質✖数量✖多様性」の組み合わせの問題だと考えています。**全天候科技:具体的にはどのようにデータを収集しているのですか?****唐文斌:**実は、特定のデータ源に依存していません。基本的には複合的な方式です。実機データは、校正済みの各種センサーを通じて収集し、外骨格のようなものも含まれますが、確かにコストは高めです。また、実体を持たない視点や一人称視点からのデータも収集し、より大規模なデータセットを形成しています。これは真の実機と合成データの中間的なアプローチです。さらに、コストの低いインターネットデータも利用しています。**全天候科技:無本体(実体なし)での収集について詳しく教えてください。****唐文斌:**無本体とは、手袋やハンドクランプのようなもので、機械腕やロボットの身体は持ちません。末端装置だけを使うイメージです。末端の位置や状態を記録しており、これをUMI(末端ユニット情報)と呼んでいます。今日話題にしている一人称視点のデータも多く、例えば眼鏡を通じて操作過程を撮影する方法もこれに該当します。**全天候科技:個人のAI眼鏡のデータはプライバシーの問題もあり、公開したくない人も多いと思います。どう対処していますか?****唐文斌:**確かに、私が眼鏡ユーザーなら、自分のデータを公開したくないです。でも、訓練のためには、第三者のデータ収集員に日常的に眼鏡を装着させて作業過程を記録してもらうことも可能です。もちろん、眼鏡自体の機能をより強化し、立体視や多目的性を持たせることも検討しています。将来的には、リストバンドや手袋の装置も追加してデータを収集する予定です。したがって、収集対象は多様です。**第一はロボット本体で遠隔操作可能なもの。第二は夹爪などの無本体装置、「人の身体+ロボット末端」の組み合わせ。第三は人体に特化した収集。第四は物理世界の記述。****全天候科技:例えば末端センサーでは、力のデータを主に収集しているのですか?****唐文斌:**力だけでなく、多モダリティのデータを目指しています。視角の追加も含めて。実操の面では、腕が遮蔽してしまうこともあるため、眼鏡部分にカメラを装着したり、手首に複数のカメラを配置したりして、多視点のデータを収集しています。**全天候科技:この収集コストは高くなりませんか?****唐文斌:**これはまさに、データの質・量・多様性のトレードオフの問題です。すべてのモジュールのデータを収集しようとするとコストは非常に高くなるため、分散型の収集戦略を採用しています。完全性を重視する部分と、コスト削減・速度向上を優先する部分とを使い分けています。これはバランスの問題であり、自社のツールと他業界との協力を広く行っています。**全天候科技:今年2月に華勤技術と共同でデータ収集ロボットをリリースしましたが、その詳細を教えてください。****唐文斌:**このロボットは主に研究用途向けで、ALOHAロボットに似た形状です。(注:ALOHAは「A Low-cost Open-source Hardware system for bimanual teleOperation」の略で、二手遠隔操作用の低コストオープンハードウェアシステム)ただし、市場のデータ収集ロボットには二つの大きな課題があります。一つは信頼性です。製品のパフォーマンスが安定しないと、研究に悪影響を及ぼし、効率も落ちます。長期的な安定性を確保できていないため、修理を簡素化し、モジュール化・着脱可能な構造にしています。部品が壊れたら素早く交換でき、例えば多くの接続はネジではなくダイヤル式で、30秒で修理可能です。もう一つはコストです。これも高いため、華勤と共同でALOHAに似た製品を設計し、主従制御やドラッグ操作をサポートしています。最も重要なのは、修理が速く、価格が安いことです。(注:主従制御は、操作者が主アームを操作し、従アームをリアルタイムで遠隔制御し、動作を正確に再現する方式)**全天候科技:業界の他社もこのロボットを購入してデータ収集に使っていますか?****唐文斌:**はい。業界の課題は共通しているため、多くの企業が他社の製品を購入し、併用しています。世界モデルのルートは通用しない---------**全天候科技:世界モデルとVLAについての見解を教えてください。****唐文斌:**ここで二つのポイントを区別したい。世界を理解することと、世界を生成することは異なる。今話題の大規模モデルは、世界を理解する能力に注目されがちですが、実際には未来予測を試みている。世界モデルは未来を予測しようとするものであり、次のフレームがどうなるかを予測する。一方、VLAは世界と相互作用することに重きを置いている。これらは共通点もありますが、異なる角度から問題を解決します。私たちの最良の戦略は、両者を組み合わせることです。そうすれば、内容を理解し生成できるだけでなく、世界と相互作用できる。理論的には、未来の世界を予測できれば、その逆算で操作方法も導き出せる。逆に、操作方法がわかれば、未来の展開も予測できる。したがって、私たちの技術フレームワークでは、世界モデルとVLAは一体化している。つまり、ひとつのモデルが世界を理解しつつ、未来を予測できる状態だ。こうすれば、モデルは動作を実行できるだけでなく、その後の世界の変化も予測できる。**全天候科技:業界の技術フレームワークはあなた方と異なりますか?****唐文斌:**確かに、いくつかの企業は世界モデルだけを主張しています。世界モデルを用いてデータを生成し、ロボットが模倣学習できると考える流れです。これにより、無限のデータ源が生まれると。しかし、私自身はこの道は通じないと考えています。もし世界モデルがすでに実現しているなら、生成の問題は解決済みであり、わざわざ生成データを使ってロボットを訓練する必要はないからです。もう一つのアプローチは、多くの同行が行っているもので、未来の世界を予測し、そのモデルから必要な動作を逆算する方法です。これは、未来のシナリオや世界状態を予測し、それに基づいて動作シーケンスを計算するもので、私が先ほど述べた「組み合わせ・統一モデル」の枠組みです。**全天候科技:シナリオ面では、現在の工場の生産ラインは自動化が進んでおり、ロボットが工場に入って働く余地はないのでは?****唐文斌:**確かに、現状の工場の自動化はかなり成熟しています。ただ、私たちが解決したいのは、従来解決できなかった課題や、コストが高すぎて解決が難しかった問題です。ただし、多くの自動化ラインは、対象や環境、タスクの汎用性をあまり求めていません。例えば、SKUは数種類、照明や外部環境も調整済みです。実際に解決が難しいのは、多様な対象や変化する環境、さらには複数の異なるタスクです。物流の例では、搬送作業はできているものの、操作は未熟です。これは汎用性の要求が高いためです。例えば、コーラとポテトチップスを買ったとき、操作員はそれぞれを包装します。商品は多種多様で、環境も変化し続けるため、自動化だけでは対応が難しい。また、パッケージングの例では、ボトル入りのボディソープのキャップにビニールを巻く作業もあります。これは漏れ防止のためですが、現状は経験に基づく作業で、手作業のままです。私たちは今、物流や工業分野でいくつかの試みを行っています。**全天候科技:特定のシナリオに集中して開発しますか、それとも複数のシナリオを並行して展開しますか?****唐文斌:**これは二つの観点から話す必要があります。大規模モデルの発展、特に最新の進展を見ると、共通のトレンドが見えてきます。もし、垂直分野だけのモデルを作った場合、汎用性のあるモデルにはなり得ません。したがって、**モデルの観点からは、汎用性を追求し、より普遍的な技術能力を目指す必要があります。**しかし、実際の応用には、シナリオごとに展開し、逐次実現していく必要があります。私たちの内部では、製品の展開には二つの核心があると考えています。まず、解決策は閉ループを形成し、顧客の業務上のすべての問題や例外に対応できること。次に、コストをコントロールし、顧客にとってコスパの良い提案であること。この二つを満たすことで、顧客は規模拡大を検討します。したがって、シナリオごとに理解し、価値を明確にしながら、段階的に進めていくのが基本です。私たちのモデルと応用展開の関係は、45度の角度を持つ二つの軸の関係に例えられます。相関はありますが、完全に一致しません。もちろん、モデルはより汎用的な方向に進化させる必要があります。シナリオに対する畏敬の念を持つ---------**全天候科技 :だからあなた方は汎用ロボットの路線を推進しているのですか?****唐文斌:**個人的には、モデルは汎用性を持つべきだと思いますが、ハードウェアは非常に難しいと考えています。実際、私たちの両手は非常に柔軟です。細かい操作もできるし、20キロの重物も持ち上げられる。さらに、50キロの重さも可能です。しかし、物理学や材料学の制約により、2キロの商品を持ち上げるアームと、20キロを持ち上げるアームは異なります。パワー密度が違うからです。したがって、汎用設計を採用し、具体シナリオに適用すると、過不足の問題が出てきます。過不足とは、重量制限やセンサーの設置スペースの問題などです。必要な場合は十分に対応できるが、過剰設計になればコストが高くなる。例として、車輪付きの二腕アームは、重心が高いと高速になりますが、その分止まりにくくなり、倒れるリスクも高まる。この場合、静止している方が良いシナリオもあります。移動車両に物を運ばせるのが最適な場合もあります。こうした過剰設計の問題は、特定のシナリオでは避けられないこともあります。私たちの内部論理は、モデルに汎用性を持たせ、異なるハードウェアプラットフォームに適応できるようにすることです。**全天候科技:投資家は今、あなた方の能力の中で特にモデルに注目しているのですね?****唐文斌:**はい。私たちのチームの特徴は、ロボットシナリオの研究だけでなく、モデルの深い理解も持っていることです。旷视の物流分野で豊富な経験を積み、一定の規模も持っているため、製品に対する理解も深いですし、モデル最適化に特化した専門家もいます。**全天候科技:多くの企業は自分たちの業界のニーズに詳しいですが、あなた方はモデル事業から始めたため、シナリオの理解が弱いのでは?****唐文斌:**実は、旷视時代に多くのシナリオを経験してきました。だから、私たちはある意味、「教育を受けた人たち」だと思います。これは心構えの問題です。ロボット業界には二つのタイプの人がいます。一つは技術に詳しい人、もう一つはシナリオに詳しい人です。私たちはその中間にいます。技術だけに偏ると、シナリオの細部を軽視しがちです。実際のシナリオでは、魔の部分は細部に潜んでいます。例えば、問題が起きたとき、生産ラインを止められないため、例外処理の仕組みが必要です。したがって、技術者はシナリオに対して畏敬の念を持つ必要があります。一方、業界の人も多くの課題を抱えています。歴史的に見て、多くの同僚は技術面で二つの状態を経験しています。一つは、技術は何でもできると最初は思い込むこと。次に、AIや知能に関わると、すべて解決できると期待します。しかし、実際に解決できない問題が出てくると、非常に失望し、ルールベースの従来型に回帰します。しかし、今日のモデルの発展は、無限の能力を持つわけでもなく、何もできないわけでもなく、中間段階にあり、斜率も非常に高く、急速に進化しています。したがって、シナリオを判断し、アルゴリズムの進展速度を理解できる人材が必要です。同時に、どう解決すべきかを設計できる人も必要です。そうすれば、プロジェクトを早く立ち上げられる。私たちの今の仕事は、ニーズを満たすことにほかならず、自分たちの視野の限界もあります。だから、広く学び、多角的に観察しつつも、自分の判断基準を持ち、長く生き残るシナリオを選ぶことが重要です。**全天候科技:ターゲット顧客はロボット企業ですか、それともシナリオの適用者ですか?****唐文斌:**やはりシナリオの適用者です。正直に言えば、国内外の同行も、モデルの成熟度はまだ十分ではありません。現状では、モデルをロボット企業の装置に直接展開し、簡単に訓練して使える状態には至っていません。私の考えでは、モデルが未成熟な段階では、シナリオの実現には垂直統合が必要です。自分たちがシナリオをコントロールできないのに、パートナーや顧客に解決を期待するのは幻想です。いずれ、私たち自身が垂直シナリオを構築し、より多くのシナリオをオープンプラットフォームを通じて協力者と共に進める未来もあるでしょう。彼らは私たちのハードウェアを使うことも、私たちの「頭脳」を使って自主的に可能性を追求することもできる。**全天候科技:それがモデルのオープンソースを目指す理由で、多くの人に参加してもらいたいからですか?****唐文斌:**オープンソースには二つの側面があります。まず、多くの人に私たちのフレームワークやモデルを使ってもらい、さまざまな応用シナリオを探索し、技術の実用化を促進したい。次に、現状の業界は熱狂的ですが、モデルの成熟度はまだ初期段階です。交流と進歩を促すことが非常に重要です。**全天候科技:2026年の主要目標は、各シナリオに1000台の持続運用可能なデバイスを展開することと聞いていますが、その進捗状況を教えてください。****唐文斌:**これは下半期までには継続運用できる見込みです。現在はPOC(概念実証)段階です。自社のシナリオでの大量化には自信があります。実現には、容錯の仕組みを見つける必要があります。正直に言えば、現状のモデル駆動方式では、100%の正確性は難しい。もしタスクが失敗したらどうするか?これに答えを出す必要があります。失敗したタスクをどう復旧させるか、その方法を検討しなければならない。さらに、その失敗が企業に与える影響を評価し、その許容範囲も判断する。バックアップ策を講じた後、システム全体のROIも確認しなければならない。**全天候科技:ROIに関して、顧客はどれだけコスト削減できるかを直接尋ねてきますか?****唐文斌:**顧客は通常、「いつ回収できるか」を尋ねてきます。**五年超かかるならやらない。****2〜3年で回収できるなら、すぐにやる。**現在のB2B環境では、ほとんどの意思決定は合理的な分析に基づき、どれだけ効率化できるかを計算しています。例えば、ロボットが一部の生産工程の稼働時間を延長し、既存設備をより効率的に使うことで、顧客に価値をもたらす。**全天候科技 :今後のモデル更新について教えてください。****唐文斌:**今年の核心テーマは、「汎用性の向上」です。**全天候科技:昨年創業したばかりの具身知能モデル、遅すぎるのでは?****唐文斌:**実は、ずっと前から汎用ロボットを作りたかったのですが、技術的に未成熟だと感じていました。しかし、DeepSeekなどの大規模モデルの発展により、その可能性に対する自信が高まりました。**全天候科技:2026年の具身知能業界のキーワードは何だと思いますか?****唐文斌:**二つあります。一つはモデル能力の向上、もう一つはシナリオの継続的運用です。現状のモデルはまだ初期段階ですが、進展は非常に速いです。したがって、モデルのアルゴリズム能力を高めること、対象や環境への適応性、タスクの汎用性を向上させることが重要です。特に、モデルの汎用性は絶対に必要です。次に、シナリオの応用については、単なるPOC(概念実証)ではなく、実際のシナリオでの継続運用こそが重要です。今年こそ、その時期に来ていると考えています。リスク提示と免責事項市場にはリスクが伴います。投資は慎重に。この記事は個人投資の助言を意図したものではなく、特定の投資目的や財務状況を考慮したものでもありません。読者は、本文の意見や見解が自身の状況に適合するかどうかを判断し、投資の責任は自己にあります。
対話原力の唐文斌:純粋な「世界モデル」路線は通用しない
具身知能の「データ暗闘」が静かに始まっている。
今年1月、湖北省のヒューマノイドロボットイノベーションセンターは、智元ロボットに対して数千時間の訓練データを提供し、国内初のカスタマイズ型ヒューマノイドロボットのデータ取引を完了した。
業界大手では、京東が「世界最大規模、最も多様なシナリオを持つ具身知能データ収集センターの構築」を掲げ、1万人超の内部社員と最大50万人の外部人員を動員し、前例のない「人海戦術」を展開する計画を発表した。
海外に目を向けると、韓国のロボット企業Robotisは今年1月、ウズベキスタンに子会社を設立し、11万平方メートルの土地に巨大な「データ工場」を建設し、ロボットの行動データを収集する予定だ。
時間単位の課金によるカスタマイズ取引、数十万人の大動員、中央アジアへの工場建設――これら一連の施策は、具身知能業界全体の重い「データ不安」を映し出している。
インターネットのコーパスで育った大規模言語モデルと異なり、具身知能は世界を理解し、実世界と相互作用する必要があるため、データの真実性やモダリティなどに対してより高い要求が課されている。
これもまた、原力灵机の創業者兼CEOの唐文斌が現在取り組む難題の一つだ。
経歴を振り返ると、唐文斌は、前回のAIブームのスター・ユニコーン企業である旷视科技の共同創業者兼CTOとしてより知られている。
設立からわずか1年の原力灵机は、すでに10億元超の資金を調達し、阿里、蔚来、君联、启明などのトップ機関から投資を受けている。
現在、原力灵机は自社の最初の具身原生大モデルDM0をリリースし、華勤技術と戦略的提携を結び、データ収集ロボットDOS-W1の量産と納品を実現している。
AIの実用化の洗礼を経て、唐文斌は業界に対してより深い畏敬の念を抱いている。
最近のウォール街見聞・全天候科技との対話で、唐文斌は原力灵机のデータ収集の考え方を共有した:単一の情報源に頼らず、「質✖量✖多様性」の組み合わせによる分散収集を行い、ロボットの能力空間を満たす。
世界モデルを用いてデータを生成し、ロボットが模倣学習できるルートについて、唐文斌は「この道は難しい」と考えている。彼は、より実現可能なパラダイムとして、世界モデルとVLA(視覚・言語・動作)モデルの統合を挙げている。つまり、未来の世界を予測できるだけでなく、それに基づいて必要な正確な動作を逆推できることだ。
業界のプレイヤーたちがそれぞれの方法で「データ備蓄」に狂奔している中、どのルートが「最後に笑う」ことになるのか、市場は見守っている。
以下は対話の記録。
データ収集の詳細
全天候科技:あなた方のデータ収集の考え方について共有いただけますか?
**唐文斌:**今のところ、私たちは強化学習の模倣を基本としています。
模倣はデータ分布のシミュレーションを伴います。私たちの目標は、できるだけ多くのものを見せて、ロボットの能力空間を埋めることです。未見のシナリオへの対応能力を識別することが核心であり、その価値はそこにあります。したがって、私たちのデータ収集はオープン環境や実シナリオを中心に展開しています。
ただし、データの質を高めつつ、できるだけ多様性を持たせることも重視しており、これは「質✖数量✖多様性」の組み合わせの問題だと考えています。
全天候科技:具体的にはどのようにデータを収集しているのですか?
**唐文斌:**実は、特定のデータ源に依存していません。基本的には複合的な方式です。実機データは、校正済みの各種センサーを通じて収集し、外骨格のようなものも含まれますが、確かにコストは高めです。
また、実体を持たない視点や一人称視点からのデータも収集し、より大規模なデータセットを形成しています。これは真の実機と合成データの中間的なアプローチです。
さらに、コストの低いインターネットデータも利用しています。
全天候科技:無本体(実体なし)での収集について詳しく教えてください。
**唐文斌:**無本体とは、手袋やハンドクランプのようなもので、機械腕やロボットの身体は持ちません。末端装置だけを使うイメージです。末端の位置や状態を記録しており、これをUMI(末端ユニット情報)と呼んでいます。
今日話題にしている一人称視点のデータも多く、例えば眼鏡を通じて操作過程を撮影する方法もこれに該当します。
全天候科技:個人のAI眼鏡のデータはプライバシーの問題もあり、公開したくない人も多いと思います。どう対処していますか?
**唐文斌:**確かに、私が眼鏡ユーザーなら、自分のデータを公開したくないです。でも、訓練のためには、第三者のデータ収集員に日常的に眼鏡を装着させて作業過程を記録してもらうことも可能です。
もちろん、眼鏡自体の機能をより強化し、立体視や多目的性を持たせることも検討しています。将来的には、リストバンドや手袋の装置も追加してデータを収集する予定です。
したがって、収集対象は多様です。第一はロボット本体で遠隔操作可能なもの。第二は夹爪などの無本体装置、「人の身体+ロボット末端」の組み合わせ。第三は人体に特化した収集。第四は物理世界の記述。
全天候科技:例えば末端センサーでは、力のデータを主に収集しているのですか?
**唐文斌:**力だけでなく、多モダリティのデータを目指しています。視角の追加も含めて。
実操の面では、腕が遮蔽してしまうこともあるため、眼鏡部分にカメラを装着したり、手首に複数のカメラを配置したりして、多視点のデータを収集しています。
全天候科技:この収集コストは高くなりませんか?
**唐文斌:**これはまさに、データの質・量・多様性のトレードオフの問題です。すべてのモジュールのデータを収集しようとするとコストは非常に高くなるため、分散型の収集戦略を採用しています。完全性を重視する部分と、コスト削減・速度向上を優先する部分とを使い分けています。
これはバランスの問題であり、自社のツールと他業界との協力を広く行っています。
全天候科技:今年2月に華勤技術と共同でデータ収集ロボットをリリースしましたが、その詳細を教えてください。
**唐文斌:**このロボットは主に研究用途向けで、ALOHAロボットに似た形状です。(注:ALOHAは「A Low-cost Open-source Hardware system for bimanual teleOperation」の略で、二手遠隔操作用の低コストオープンハードウェアシステム)
ただし、市場のデータ収集ロボットには二つの大きな課題があります。
一つは信頼性です。製品のパフォーマンスが安定しないと、研究に悪影響を及ぼし、効率も落ちます。長期的な安定性を確保できていないため、修理を簡素化し、モジュール化・着脱可能な構造にしています。部品が壊れたら素早く交換でき、例えば多くの接続はネジではなくダイヤル式で、30秒で修理可能です。
もう一つはコストです。これも高いため、華勤と共同でALOHAに似た製品を設計し、主従制御やドラッグ操作をサポートしています。最も重要なのは、修理が速く、価格が安いことです。(注:主従制御は、操作者が主アームを操作し、従アームをリアルタイムで遠隔制御し、動作を正確に再現する方式)
全天候科技:業界の他社もこのロボットを購入してデータ収集に使っていますか?
**唐文斌:**はい。業界の課題は共通しているため、多くの企業が他社の製品を購入し、併用しています。
世界モデルのルートは通用しない
全天候科技:世界モデルとVLAについての見解を教えてください。
**唐文斌:**ここで二つのポイントを区別したい。世界を理解することと、世界を生成することは異なる。
今話題の大規模モデルは、世界を理解する能力に注目されがちですが、実際には未来予測を試みている。世界モデルは未来を予測しようとするものであり、次のフレームがどうなるかを予測する。一方、VLAは世界と相互作用することに重きを置いている。
これらは共通点もありますが、異なる角度から問題を解決します。
私たちの最良の戦略は、両者を組み合わせることです。そうすれば、内容を理解し生成できるだけでなく、世界と相互作用できる。
理論的には、未来の世界を予測できれば、その逆算で操作方法も導き出せる。逆に、操作方法がわかれば、未来の展開も予測できる。
したがって、私たちの技術フレームワークでは、世界モデルとVLAは一体化している。つまり、ひとつのモデルが世界を理解しつつ、未来を予測できる状態だ。
こうすれば、モデルは動作を実行できるだけでなく、その後の世界の変化も予測できる。
全天候科技:業界の技術フレームワークはあなた方と異なりますか?
**唐文斌:**確かに、いくつかの企業は世界モデルだけを主張しています。世界モデルを用いてデータを生成し、ロボットが模倣学習できると考える流れです。これにより、無限のデータ源が生まれると。
しかし、私自身はこの道は通じないと考えています。もし世界モデルがすでに実現しているなら、生成の問題は解決済みであり、わざわざ生成データを使ってロボットを訓練する必要はないからです。
もう一つのアプローチは、多くの同行が行っているもので、未来の世界を予測し、そのモデルから必要な動作を逆算する方法です。これは、未来のシナリオや世界状態を予測し、それに基づいて動作シーケンスを計算するもので、私が先ほど述べた「組み合わせ・統一モデル」の枠組みです。
全天候科技:シナリオ面では、現在の工場の生産ラインは自動化が進んでおり、ロボットが工場に入って働く余地はないのでは?
**唐文斌:**確かに、現状の工場の自動化はかなり成熟しています。ただ、私たちが解決したいのは、従来解決できなかった課題や、コストが高すぎて解決が難しかった問題です。
ただし、多くの自動化ラインは、対象や環境、タスクの汎用性をあまり求めていません。例えば、SKUは数種類、照明や外部環境も調整済みです。
実際に解決が難しいのは、多様な対象や変化する環境、さらには複数の異なるタスクです。
物流の例では、搬送作業はできているものの、操作は未熟です。これは汎用性の要求が高いためです。
例えば、コーラとポテトチップスを買ったとき、操作員はそれぞれを包装します。商品は多種多様で、環境も変化し続けるため、自動化だけでは対応が難しい。
また、パッケージングの例では、ボトル入りのボディソープのキャップにビニールを巻く作業もあります。これは漏れ防止のためですが、現状は経験に基づく作業で、手作業のままです。
私たちは今、物流や工業分野でいくつかの試みを行っています。
全天候科技:特定のシナリオに集中して開発しますか、それとも複数のシナリオを並行して展開しますか?
**唐文斌:**これは二つの観点から話す必要があります。大規模モデルの発展、特に最新の進展を見ると、共通のトレンドが見えてきます。もし、垂直分野だけのモデルを作った場合、汎用性のあるモデルにはなり得ません。
したがって、モデルの観点からは、汎用性を追求し、より普遍的な技術能力を目指す必要があります。
しかし、実際の応用には、シナリオごとに展開し、逐次実現していく必要があります。
私たちの内部では、製品の展開には二つの核心があると考えています。まず、解決策は閉ループを形成し、顧客の業務上のすべての問題や例外に対応できること。次に、コストをコントロールし、顧客にとってコスパの良い提案であること。
この二つを満たすことで、顧客は規模拡大を検討します。
したがって、シナリオごとに理解し、価値を明確にしながら、段階的に進めていくのが基本です。
私たちのモデルと応用展開の関係は、45度の角度を持つ二つの軸の関係に例えられます。相関はありますが、完全に一致しません。
もちろん、モデルはより汎用的な方向に進化させる必要があります。
シナリオに対する畏敬の念を持つ
全天候科技 :だからあなた方は汎用ロボットの路線を推進しているのですか?
**唐文斌:**個人的には、モデルは汎用性を持つべきだと思いますが、ハードウェアは非常に難しいと考えています。
実際、私たちの両手は非常に柔軟です。細かい操作もできるし、20キロの重物も持ち上げられる。さらに、50キロの重さも可能です。
しかし、物理学や材料学の制約により、2キロの商品を持ち上げるアームと、20キロを持ち上げるアームは異なります。パワー密度が違うからです。
したがって、汎用設計を採用し、具体シナリオに適用すると、過不足の問題が出てきます。
過不足とは、重量制限やセンサーの設置スペースの問題などです。必要な場合は十分に対応できるが、過剰設計になればコストが高くなる。
例として、車輪付きの二腕アームは、重心が高いと高速になりますが、その分止まりにくくなり、倒れるリスクも高まる。
この場合、静止している方が良いシナリオもあります。移動車両に物を運ばせるのが最適な場合もあります。
こうした過剰設計の問題は、特定のシナリオでは避けられないこともあります。
私たちの内部論理は、モデルに汎用性を持たせ、異なるハードウェアプラットフォームに適応できるようにすることです。
全天候科技:投資家は今、あなた方の能力の中で特にモデルに注目しているのですね?
**唐文斌:**はい。私たちのチームの特徴は、ロボットシナリオの研究だけでなく、モデルの深い理解も持っていることです。旷视の物流分野で豊富な経験を積み、一定の規模も持っているため、製品に対する理解も深いですし、モデル最適化に特化した専門家もいます。
全天候科技:多くの企業は自分たちの業界のニーズに詳しいですが、あなた方はモデル事業から始めたため、シナリオの理解が弱いのでは?
**唐文斌:**実は、旷视時代に多くのシナリオを経験してきました。だから、私たちはある意味、「教育を受けた人たち」だと思います。
これは心構えの問題です。ロボット業界には二つのタイプの人がいます。一つは技術に詳しい人、もう一つはシナリオに詳しい人です。私たちはその中間にいます。
技術だけに偏ると、シナリオの細部を軽視しがちです。実際のシナリオでは、魔の部分は細部に潜んでいます。例えば、問題が起きたとき、生産ラインを止められないため、例外処理の仕組みが必要です。
したがって、技術者はシナリオに対して畏敬の念を持つ必要があります。
一方、業界の人も多くの課題を抱えています。歴史的に見て、多くの同僚は技術面で二つの状態を経験しています。一つは、技術は何でもできると最初は思い込むこと。次に、AIや知能に関わると、すべて解決できると期待します。しかし、実際に解決できない問題が出てくると、非常に失望し、ルールベースの従来型に回帰します。
しかし、今日のモデルの発展は、無限の能力を持つわけでもなく、何もできないわけでもなく、中間段階にあり、斜率も非常に高く、急速に進化しています。
したがって、シナリオを判断し、アルゴリズムの進展速度を理解できる人材が必要です。同時に、どう解決すべきかを設計できる人も必要です。そうすれば、プロジェクトを早く立ち上げられる。
私たちの今の仕事は、ニーズを満たすことにほかならず、自分たちの視野の限界もあります。
だから、広く学び、多角的に観察しつつも、自分の判断基準を持ち、長く生き残るシナリオを選ぶことが重要です。
全天候科技:ターゲット顧客はロボット企業ですか、それともシナリオの適用者ですか?
**唐文斌:**やはりシナリオの適用者です。
正直に言えば、国内外の同行も、モデルの成熟度はまだ十分ではありません。現状では、モデルをロボット企業の装置に直接展開し、簡単に訓練して使える状態には至っていません。
私の考えでは、モデルが未成熟な段階では、シナリオの実現には垂直統合が必要です。
自分たちがシナリオをコントロールできないのに、パートナーや顧客に解決を期待するのは幻想です。いずれ、私たち自身が垂直シナリオを構築し、より多くのシナリオをオープンプラットフォームを通じて協力者と共に進める未来もあるでしょう。彼らは私たちのハードウェアを使うことも、私たちの「頭脳」を使って自主的に可能性を追求することもできる。
全天候科技:それがモデルのオープンソースを目指す理由で、多くの人に参加してもらいたいからですか?
**唐文斌:**オープンソースには二つの側面があります。まず、多くの人に私たちのフレームワークやモデルを使ってもらい、さまざまな応用シナリオを探索し、技術の実用化を促進したい。次に、現状の業界は熱狂的ですが、モデルの成熟度はまだ初期段階です。交流と進歩を促すことが非常に重要です。
全天候科技:2026年の主要目標は、各シナリオに1000台の持続運用可能なデバイスを展開することと聞いていますが、その進捗状況を教えてください。
**唐文斌:**これは下半期までには継続運用できる見込みです。現在はPOC(概念実証)段階です。
自社のシナリオでの大量化には自信があります。
実現には、容錯の仕組みを見つける必要があります。正直に言えば、現状のモデル駆動方式では、100%の正確性は難しい。
もしタスクが失敗したらどうするか?これに答えを出す必要があります。失敗したタスクをどう復旧させるか、その方法を検討しなければならない。さらに、その失敗が企業に与える影響を評価し、その許容範囲も判断する。
バックアップ策を講じた後、システム全体のROIも確認しなければならない。
全天候科技:ROIに関して、顧客はどれだけコスト削減できるかを直接尋ねてきますか?
**唐文斌:**顧客は通常、「いつ回収できるか」を尋ねてきます。
五年超かかるならやらない。
**2〜3年で回収できるなら、すぐにやる。**現在のB2B環境では、ほとんどの意思決定は合理的な分析に基づき、どれだけ効率化できるかを計算しています。例えば、ロボットが一部の生産工程の稼働時間を延長し、既存設備をより効率的に使うことで、顧客に価値をもたらす。
全天候科技 :今後のモデル更新について教えてください。
**唐文斌:**今年の核心テーマは、「汎用性の向上」です。
全天候科技:昨年創業したばかりの具身知能モデル、遅すぎるのでは?
**唐文斌:**実は、ずっと前から汎用ロボットを作りたかったのですが、技術的に未成熟だと感じていました。しかし、DeepSeekなどの大規模モデルの発展により、その可能性に対する自信が高まりました。
全天候科技:2026年の具身知能業界のキーワードは何だと思いますか?
**唐文斌:**二つあります。一つはモデル能力の向上、もう一つはシナリオの継続的運用です。
現状のモデルはまだ初期段階ですが、進展は非常に速いです。したがって、モデルのアルゴリズム能力を高めること、対象や環境への適応性、タスクの汎用性を向上させることが重要です。特に、モデルの汎用性は絶対に必要です。
次に、シナリオの応用については、単なるPOC(概念実証)ではなく、実際のシナリオでの継続運用こそが重要です。今年こそ、その時期に来ていると考えています。
リスク提示と免責事項
市場にはリスクが伴います。投資は慎重に。この記事は個人投資の助言を意図したものではなく、特定の投資目的や財務状況を考慮したものでもありません。読者は、本文の意見や見解が自身の状況に適合するかどうかを判断し、投資の責任は自己にあります。