在他看来,Physical AI 也可能处在类似阶段。行业承认数据是通向通用机器人模型的必需品,却容易把最容易展示的指标当成最重要的指标:累计遥操作小时、示教轨迹数量、部署机器人数量、生产场景运行时长。
彼の見解では、Physical AIも同様の段階にある可能性がある。業界はデータが汎用ロボットモデルへの必須要素であることを認めつつも、最も示しやすい指標を最も重要な指標と見なしがちだ。すなわち、累計遠隔操作時間、教示軌跡の数、導入ロボット台数、生産現場での稼働時間である。
机器人学者 Ken Goldberg 曾用「100,000-year data gap」形容机器人与互联网规模 AI 数据之间的差距。更准确地说,当代大型视觉语言模型训练所消耗的文本和图像数据,如果折算成人类阅读或观看时间,约相当于 10 万年,而机器人缺少同等规模的真实交互数据。这个说法不是在给机器人模型设定精确门槛,而是在提醒行业:真实世界交互数据无法像网页文本一样被低成本抓取。
ロボット学者のKen Goldberg氏はかつて「10万年のデータギャップ」という言葉で、ロボットとインターネット規模のAIデータとの差を表現した。より正確に言えば、現代の大規模視覚言語モデルのトレーニングに消費されるテキストと画像データを、人間の読書または視聴時間に換算すると、約10万年に相当する。一方、ロボットには同規模の実インタラクションデータが不足している。この表現はロボットモデルに正確な閾値を設定するものではなく、業界に注意を促すものだ。つまり、実世界のインタラクションデータはウェブページテキストのように低コストで収集できないということだ。
データフライホイール?重複サンプル?ロボットは「時間数崇拝」に別れを告げるべきだ
曾任、兼任多伦多大学并现任佐治亚理工的机器人学者 Animesh Garg,在一篇题为《Moneyball for Physical AI》的文章中,把具身智能的数据竞赛比作棒球史上的「金球」时刻。 トロント大学とジョージア工科大学でロボット工学を研究するAnimesh Garg氏は、「Physical AIのマネーボール」と題する記事で、具身知能(エンボディドAI)のデータ競争を野球史における「マネーボール」の瞬間に例えた。
他想挑战的是一个越来越常见的融资叙事:机器人公司只要堆更多遥操作、更多真实部署、更多运行小时,就能形成数据飞轮。对投资者来说,这不是学术口水战。具身智能公司的成本结构、商业化速度和模型壁垒,很多时候都被包装进「数据闭环」这四个字里。如果累计小时数并不等于有效模型进步,市场就需要重新看待这些公司的数据资产。 彼が挑戦しようとしているのは、ますます一般的になっている資金調達の物語だ。つまり、ロボット企業が遠隔操作の量、実際の導入数、稼働時間を増やせば、データのフライホイール効果が生まれるというものだ。投資家にとって、これは学術的な言い争いではない。具身知能企業のコスト構造、商業化の速度、モデルの壁は、多くの場合「データループ」という四文字に詰め込まれている。累計稼働時間が効果的なモデル進歩とイコールでないなら、市場はこれらの企業のデータ資産を再評価する必要がある。
「数据小时数」可能是机器人行业的打击率迷信 「データ時間数」はロボット業界の打率神話かもしれない
Garg 借用了《Moneyball》的经典类比。2002 年奥克兰运动家队以联盟低薪资球队之一的阵容赢下 103 场比赛,关键不是买到更贵的球员,而是发现市场错估了球员价值。传统球探看重打击率、盗垒和姿势,但更能解释球队得分能力的指标,是上垒率。 Garg氏は『マネーボール』の古典的な類推を用いた。2002年、オークランド・アスレチックスはリーグ最低クラスの給与チームの一つでありながら103試合に勝利した。鍵はより高価な選手を買うことではなく、市場が選手の価値を誤って評価していることを発見したことだった。従来のスカウトは打率、盗塁、フォームを重視したが、チームの得点力をよりよく説明する指標は出塁率だった。
在他看来,Physical AI 也可能处在类似阶段。行业承认数据是通向通用机器人模型的必需品,却容易把最容易展示的指标当成最重要的指标:累计遥操作小时、示教轨迹数量、部署机器人数量、生产场景运行时长。 彼の見解では、Physical AIも同様の段階にある可能性がある。業界はデータが汎用ロボットモデルへの必須要素であることを認めつつも、最も示しやすい指標を最も重要な指標と見なしがちだ。すなわち、累計遠隔操作時間、教示軌跡の数、導入ロボット台数、生産現場での稼働時間である。
机器人数据和文本数据的供给方式并不一样。大语言模型可以从互联网、代码库、书籍和网页中获得海量低成本文本,瓶颈更多来自算力、清洗和训练效率。机器人模型需要的是带有物理交互、动作反馈和环境变化的数据,每一小时有效数据都要被真实创造出来,背后对应设备、人力、场地、传感器、失败处理和安全成本。 ロボットデータとテキストデータの供給方法は異なる。大規模言語モデルはインターネット、コードベース、書籍、ウェブページから大量の低コストテキストを取得できる。ボトルネックはむしろ計算能力、クリーニング、トレーニング効率にある。ロボットモデルが必要とするのは、物理的インタラクション、動作フィードバック、環境変化を伴うデータであり、有効なデータの1時間ごとに実際に作り出される必要があり、背後には装置、人件費、場所、センサー、失敗処理、安全コストが伴う。
机器人学者 Ken Goldberg 曾用「100,000-year data gap」形容机器人与互联网规模 AI 数据之间的差距。更准确地说,当代大型视觉语言模型训练所消耗的文本和图像数据,如果折算成人类阅读或观看时间,约相当于 10 万年,而机器人缺少同等规模的真实交互数据。这个说法不是在给机器人模型设定精确门槛,而是在提醒行业:真实世界交互数据无法像网页文本一样被低成本抓取。 ロボット学者のKen Goldberg氏はかつて「10万年のデータギャップ」という言葉で、ロボットとインターネット規模のAIデータとの差を表現した。より正確に言えば、現代の大規模視覚言語モデルのトレーニングに消費されるテキストと画像データを、人間の読書または視聴時間に換算すると、約10万年に相当する。一方、ロボットには同規模の実インタラクションデータが不足している。この表現はロボットモデルに正確な閾値を設定するものではなく、業界に注意を促すものだ。つまり、実世界のインタラクションデータはウェブページテキストのように低コストで収集できないということだ。
这也是 Garg 反对「血汗工厂式遥操作」叙事的原因。大量人工遥操作确实能带来动作密集的训练样本,但如果公司只按总小时数评价数据,资金可能流向重复、低难度、低信息密度的样本,而不是最能降低失败率的场景。 これがGarg氏が「搾取的遠隔操作」の物語に反対する理由でもある。大量の人手による遠隔操作は確かにアクション密度の高いトレーニングサンプルをもたらすが、企業が総時間数だけでデータを評価するなら、資金は重複、低難易度、低情報密度のサンプルに向かい、最も失敗率を減らせるシナリオには向かない可能性がある。
三类数据买到的东西并不一样 3種類のデータで得られるものは異なる
在 Garg 的分类里,Physical AI 数据大致分为三类:观察数据、干预数据和部署数据。它们都可能有用,但成本、约束和信息密度差异很大。 Garg氏の分類では、Physical AIデータは大きく3種類に分けられる:観察データ、介入データ、導入データである。これらはすべて有用である可能性があるが、コスト、制約、情報密度の差異が大きい。
第一类是观察数据,比如第一人称或第三人称视频。它的优势是成本低、覆盖广,可以帮助模型理解物体、空间、动作结果和环境分布。短板也很清楚:模型能看到人或物体发生了什么,却未必知道机器人在某一状态下应该输出怎样的动作。 第一は観察データ、例えば一人称または三人称のビデオである。その利点は低コストで広範囲をカバーし、モデルが物体、空間、動作結果、環境分布を理解するのに役立つことだ。欠点も明らかだ。モデルは人や物体に何が起こったかを観察できるが、ロボットが特定の状態でどのような動作を出力すべきかは必ずしもわからない。
第二类是干预数据,也就是遥操作、示教和人工介入生成的状态到动作轨迹。这类数据对机器人训练更直接,因为它包含「看见什么、怎么动、动完发生什么」的链条。代价是每一条高质量轨迹都要花钱买,人力和设备成本很难像软件数据那样快速下降。 第二は介入データ、すなわち遠隔操作、教示、人手による介入によって生成された状態から動作への軌跡である。この種のデータはロボットトレーニングにとってより直接的である。なぜなら「何を見て、どう動き、動いた後どうなるか」というチェーンを含むからだ。代償として、高品質な軌跡1つひとつにお金がかかり、人件費や装置コストはソフトウェアデータのように急速に低下しにくい。
第三类是部署数据,即机器人在真实商业场景运行时产生的遥测数据。它听起来最接近商业飞轮:机器人一边干活、一边赚钱、一边产生训练数据。但这里有一个统计陷阱。 第三は導入データ、すなわちロボットが実際の商業シナリオで稼働する際に生成されるテレメトリデータである。これは商業的なフライホイールに最も近いように聞こえる。ロボットが働きながらお金を稼ぎ、同時にトレーニングデータを生成する。しかしここには統計的な罠がある。
今天最先落地的机器人场景,通常也是变化最少、流程最固定、风险最可控的场景,例如高度结构化的仓储、工厂或单一任务环境。这类生产数据数量可能很大,但分布较窄、重复度较高。模型一旦学到局部规律,后续每多运行一小时带来的新增信息就会下降。 今日最初に導入されるロボットシナリオは、通常、変化が最も少なく、プロセスが最も固定され、リスクが最も制御可能なシナリオである。例えば、高度に構造化された倉庫、工場、または単一タスク環境である。この種の生産データの量は多い可能性があるが、分布は狭く、重複度が高い。モデルが一度局所的なパターンを学習すると、その後1時間追加で稼働するごとに得られる新規情報は減少する。
部署数据并非没有价值。真正有价值的,往往不是大量「成功完成任务」的常规片段,而是失败、卡住、异常物体、边界条件和罕见扰动。问题在于,这些长尾样本不会按公司希望的节奏稳定出现,发现、筛选和复盘成本也更高。 導入データに価値がないわけではない。真に価値があるのは、多くの場合、大量の「タスク成功」の通常の断片ではなく、失敗、スタック、異常物体、境界条件、まれな外乱である。問題は、これらのロングテールサンプルは企業の望むペースで安定して現れるわけではなく、発見、選別、再評価のコストも高いことだ。
更多数据有用,但重复样本会很快变贵 より多くのデータは有用だが、重複サンプルはすぐに高価になる
Garg 对语言模型 scaling law 的借鉴比较谨慎:数据增加通常会带来模型损失下降,但收益递减。如果样本重复、近似重复,或来自同一个窄分布,新增数据的帮助会更快变小。 Garg氏は言語モデルのスケーリング則に対する参照に慎重である。データ増加は通常、モデルの損失を低下させるが、収穫逓減が生じる。サンプルが重複、近似重複、または同じ狭い分布から来る場合、追加データの助けはより速く小さくなる。
放到机器人领域,这个问题更直观。一个机器人学习从固定货架抓取固定包装盒,前几千次示教、失败和修正可能非常有价值。一旦动作、物体、光照和路径都被反复采集,新增数据更像是在复制已经学过的局部经验。 ロボット分野に当てはめると、この問題はより直感的である。ロボットが固定ラックから固定の包装箱をつかむことを学習する場合、最初の数千回の教示、失敗、修正は非常に価値がある可能性がある。一度動作、物体、照明、経路がすべて繰り返し収集されると、追加データはすでに学習済みの局所的な経験を複製するようなものになる。
语言模型训练中已经有类似经验:重复和近重复数据会浪费训练预算,过度重复还可能损害泛化。Garg 并没有把这些结论直接套到机器人训练上,而是用它们说明一个方向:衡量数据价值不能只看数量,还要看样本之间到底有多大差异。 言語モデルのトレーニングでも同様の経験がある。重複および近似重複データはトレーニング予算を浪費し、過度な重複は汎化を損なう可能性さえある。Garg氏はこれらの結論を直接ロボットトレーニングに適用しているわけではなく、一つの方向性を示すために使っている。データの価値を測るには量だけでなく、サンプル間の実際の差異も見る必要がある。
对 Physical AI 来说,多样性至少有两层含义。第一是让模型见过更多物体、空间、材质、光照、遮挡和操作方式。第二是避免模型在一个过于简单的任务分布里表现很好,换到稍微不同的场景就失效。 Physical AIにとって、多様性には少なくとも二つの意味がある。第一はモデルにより多くの物体、空間、材質、照明、遮蔽、操作方法を見せることである。第二はモデルが過度に単純なタスク分布でうまく機能しても、少し異なるシナリオに変わると機能しなくなるのを避けることである。
长尾失败案例因此变得关键。真实物理世界不是均匀分布的,低频异常经常决定商业可用性:物体摆放偏一点、包装变形、表面反光、抓手打滑、人突然介入、传感器漏看、地面摩擦变化。模型在常规样本上表现再好,如果处理不了这些尾部事件,部署仍会被少数失败拖住。 ロングテールの失敗事例がそのため重要になる。現実の物理世界は均一分布ではない。低頻度の異常が商業的な実用性を左右することが多い。物体の配置が少しずれる、包装が変形する、表面が反射する、グリッパーが滑る、人が突然介入する、センサーが見落とす、床の摩擦が変化するなどである。モデルが通常のサンプルでどんなに優れたパフォーマンスを示しても、これらのテールイベントを処理できなければ、導入は少数の失敗によって停滞する。
部署飞轮成立,需要早期场景足够「新」 導入のフライホイールが成立するには、初期シナリオが十分に「新規」である必要がある
这篇文章真正挑战的,是具身智能公司常见的商业化路线:先在窄场景中部署机器人,用人类远程接管保证可用性,同时收集生产数据,再用这些数据训练更强模型,打开更多场景。 この記事が真に挑戦しているのは、具身知能企業に共通する商業化の経路である。まず狭いシナリオにロボットを導入し、人間による遠隔操作で可用性を確保しながら生産データを収集し、そのデータでより強力なモデルをトレーニングして、より多くのシナリオを開拓するというものだ。
Garg 将这类路径称为「neo-integrator」式思路。它试图绕开纯数据采集成本,把机器人放进商业生产中,让运营收入抵消数据成本。相比专门搭建遥操作工厂,这条路听起来更高效。 Garg氏はこの種の経路を「ネオ・インテグレーター」的アプローチと呼んでいる。純粋なデータ収集コストを回避し、ロボットを商業生産に投入し、運営収入でデータコストを相殺しようとするものである。専用の遠隔操作工場を構築するよりも、この方法はより効率的に聞こえる。
但飞轮成立有一个前提:早期商业场景产生的数据,必须足够新、足够多样,能帮助模型迁移到更多任务。如果部署场景只是低变化、低熵、强工程定制的窄任务,数据就会很快饱和。公司得到的可能不是通用能力飞轮,而是一组需要持续集成、维护和异常处理的定制项目。 しかしフライホイールが成立するには前提がある。初期の商業シナリオで生成されるデータが、十分に新しく、十分に多様で、モデルがより多くのタスクに転移できるように助けるものでなければならない。導入シナリオが低変化、低エントロピー、強力なエンジニアリングカスタマイズの狭いタスクに過ぎなければ、データはすぐに飽和する。企業が得るのは汎用能力のフライホイールではなく、継続的な統合、保守、異常処理を必要とする一連のカスタムプロジェクトかもしれない。
这会带来两类成本。第一,每进入一个新场景,都要投入环境改造、流程适配、失败兜底和安全机制。第二,如果部署本身还没有达到盈亏平衡,扩大规模就不一定是在低成本收集数据,也可能是在用亏损换取大量低新颖性样本。 これにより二種類のコストが生じる。第一に、新しいシナリオに参入するたびに、環境改造、プロセス適応、失敗対策、安全機構に投資する必要がある。第二に、導入自体がまだ損益分岐点に達していない場合、規模を拡大することは低コストでのデータ収集とは限らず、多量の低新規性サンプルを得るために損失を出している可能性もある。
所以,早期部署不是无用,而是需要更细地看:它带来了多少新任务覆盖,产生了多少失败和异常样本,这些样本能否迁移到其他场景,扣除硬件、人力、维护和集成成本后,每一美元买到的模型改进有多少。 したがって、初期導入は無用ではないが、より細かく見る必要がある。どれだけの新タスクカバレッジをもたらし、どれだけの失敗および異常サンプルを生成したか、これらのサンプルが他のシナリオに転移できるか、ハードウェア、人件費、保守、統合コストを差し引いた後、1ドルあたりどれだけのモデル改善が得られたか。
估值叙事不能只问攒了多少小时 評価の物語は単に何時間蓄積したかだけを問うべきではない
Garg 给出的建议不是停止采集数据,而是替换评价口径。累计运行小时、遥操作小时和轨迹数量可以作为运营指标,但不应被直接等同于模型进步。 Garg氏の提案はデータ収集を止めることではなく、評価指標を置き換えることである。累計稼働時間、遠隔操作時間、軌跡数は運営指標として使用できるが、モデルの進歩と直接同一視すべきではない。
更有解释力的问题包括:单个任务的数据什么时候饱和,新增一个任务需要多少工程集成成本,数据覆盖了多少不同场景和动作簇,生产数据中有多少是真正的分布漂移和异常样本,部署流里有多少常规成功片段应该被过滤掉,而不是继续喂给模型。 より説明力のある質問には以下が含まれる。単一タスクのデータはいつ飽和するか、新しいタスクを追加するにはどれだけのエンジニアリング統合コストが必要か、データはどれだけの異なるシナリオと動作クラスターをカバーしているか、生産データのうち真の分布シフトと異常サンプルはどれだけあるか、導入フロー内の通常の成功断片のうちどれだけがフィルタリングされるべきで、モデルに与え続けるべきでないか。
对应到三类数据,资本配置也会不同。观察数据应优先追求低成本、多样性和广覆盖,用来扩大基础能力边界。高成本的遥操作和示教数据在达到单任务饱和后,应把预算转向更多任务,而不是继续重复同一动作。部署数据则应重点筛选失败、边界条件和分布外样本,丢弃大量信息密度低的常规运行记录。 三種類のデータに対応して、資本配分も異なる。観察データは低コスト、多様性、広いカバレッジを優先し、基礎能力の境界を拡大するために使うべきである。高コストの遠隔操作および教示データは、単一タスクが飽和した後、予算をより多くのタスクに向けるべきであり、同じ動作を繰り返し続けるべきではない。導入データは失敗、境界条件、分布外サンプルの選別に重点を置き、情報密度の低い多数の通常稼働記録は破棄すべきである。
这套观点对 Physical AI 的估值叙事有现实影响。一个公司拥有更多机器人、更长运行时间、更大遥操作团队,并不自动代表拥有更强模型壁垒。更难复制的能力,可能是持续找到高价值长尾数据、判断某类数据何时饱和,以及用更低成本覆盖更多任务分布。 この一連の見解はPhysical AIの評価の物語に現実的な影響を与える。ある企業がより多くのロボット、より長い稼働時間、より大規模な遠隔操作チームを持っていても、自動的に強力なモデルの壁を持つとは限らない。より複製が困難な能力は、高価値のロングテールデータを継続的に見つけ出し、特定の種類のデータがいつ飽和するかを判断し、より低コストでより多くのタスク分布をカバーすることかもしれない。
不过,这仍是一套资本配置视角,还不是行业定论。机器人模型是否会出现类似语言模型的规模收益,部署数据能否在某些高维场景持续产生新信息,不同任务之间的迁移效率有多高,都还要靠更多实证结果回答。 ただし、これは依然として資本配分の視点であり、業界の定説ではない。ロボットモデルに言語モデルと同様の規模の利益が現れるか、導入データが特定の高次元シナリオで持続的に新情報を生成できるか、異なるタスク間の転移効率がどれほど高いかは、さらなる実証結果によって答えられる必要がある。
Garg 的提醒落在一个更具体的问题上:Physical AI 的「金球指标」也许不是数据小时数,而是每一美元买到的新颖样本。对于仍在用数据飞轮讲故事的机器人公司,市场最终要看的可能不是累计运行时间有多长,而是这些时间里到底产生了多少新信息。 Garg氏の警告はより具体的な問題に焦点を当てている。Physical AIの「マネーボール指標」はデータ時間数ではなく、1ドルあたりに得られる新規性サンプルかもしれない。データのフライホイールで依然としてストーリーを語るロボット企業にとって、市場が最終的に見るのは累計稼働時間の長さではなく、その時間にどれだけの新情報が生み出されたかである。