300万対のサンプル、200万対の実写：深度推定のデータ不足がついに打破される

MaticHoleFiller · 2026-04-05T18:14:48+00:00

（出典：機械心）機械心編集部深度推定や深度補完を行う人は、おそらくこの瞬間を経験したことがある。モデルがNYU Depth V2のようなクラシックなベンチマークで良いスコアを出し、指標も十分に良好であっても、同じモデルを実際のロボットにデプロイすると、問題がすぐに露呈する：深度マップのエッジがぼやけている、遠距離で漂う、反射素材に遭遇するとほぼ即座に失敗する。最初の反応は、多くの場合バグがあると思い込み、コードやトレーニングフローを一通り調査することになる。しかし最終的に気付くのは、コードに問題はないということだ。問題はデータにある。実は、これは例外ではなく、この分野に長く存在してきたジレンマの一つだ。深度推定と深度補完の学術的進展は、ある意味でデータセットの壁に阻まれて進んできた。過去十数年、社

MaticHoleFiller

2026-04-05 18:14:48

（出所：机器之心）

机器之心編集部

深度推定、深度補完を得意とする人には、たぶん誰しもこんな瞬間があったはずです。

モデルが NYU Depth V2 のような定番ベンチマークで見事なスコアを出し、指標も十分に見栄えがよかった。ところが、同じモデルを実際のロボットにデプロイすると、問題がすぐに露呈します。深度マップのエッジがにじみ、遠方でドリフトし、反射材質に遭遇するとほぼ直接的に機能しなくなります。

あなたの最初の反応はたいてい「実装にバグがある」と考え、コードから学習プロセスまで一通り洗い出します。しかし最終的には、コードに問題はないと分かります。

問題はデータにあります。

これは単発の事例ではなく、この分野に長く存在する困難の一つです。

深度推定と深度補完における学術的な進展は、ある程度まで、データセットの「天井」に押し上げられて進んできた面があります。ここ十数年、コミュニティは主にいくつかの定番データセットに強く依存してきました。NYU Depth V2 はアパートやオフィスのような場面が中心で、屋内のカバー範囲は限られます。KITTI は自動運転向けで屋外道路の場面はしっかりしていますが、身体知能（具身知能）にはほぼ直接的に役立ちません。ScanNet は屋内の再構成方向で大きく貢献しましたが、そのフレーム系列の形式はペアとなる深度学習のために設計されたものではありません。ETH3D や DIML にはそれぞれ特徴がありますが、規模がいずれも現在の大規模モデル時代の学習ニーズを支えるほどには足りません。

いまは合成データセットでデータ不足を補えるものの、合成データにはレンダリング材質と実環境の間に、人間の目で見て分かるほどのギャップがあります。合成データで学んだ深度の事前知識は、現実世界の反射金属、透明ガラス、複雑なテクスチャに遭遇すると、たいていそのまま崩壊してしまいます。

このギャップは、大規模な実データがない限り、体系的な解決策を実現するのは難しい。3月末まで、この状況がようやく緩み始めました。

アリババ・リンボー（蚂蚁灵波）は、この分野では久しぶりの行動を一度に実行しました。約300万ペアの高品質 RGB - 深度データを一括してオープンソース化——LingBot-Depth-Dataset。各サンプルは RGB 画像、センサーの元の深度、そして対応する真値の深度を同時に含み、学習に完全な照合（対照）信号を提供します。

データセット全体の規模は 2.71TB で、その中には約200万ペアの実際に収集した RGB-D データと、100万ペアの高品質レンダリングデータが含まれます。実データ部分では、Orbbec 335、335L、RealSense D405、D415、D435、D455 の計6種類の市場の主流深度カメラをカバーし、異なるハードウェア条件下での実際の認識分布を可能な限り再現します。

このデータセットは CC BY-NC-SA 4.0 のライセンスでオープンソースとして公開され、学術および非商用の場面において自由な使用と再創作が許可されています。

魔搭コミュニティ ModelScope：https://modelscope.cn/datasets/Robbyant/LingBot-Depth-Dataset
HuggingFace：https://huggingface.co/datasets/robbyant/mdm_depth

実際のところ、このデータセットの有効性は、モデルの段階でずっと前に検証されています。今年1月にアリババ・リンボー（蚂蚁灵波）がオープンソース化した身体知能のセンシングモデル LingBot-Depth は、まさにこのデータで学習して作られたものです。

実際の効果を見ると、LingBot-Depth はハードウェアを交換することなく、透明・反射といった複雑な材質シーンにおける深度出力品質を大幅に改善できます。そして深度精度とピクセルカバレッジという2つの主要指標では、現在市販されているトップクラスの産業用 RGB-D カメラに対してすでに全面的に優れています。

まさにこの前提のもとで、アリババ・リンボー（蚂蚁灵波）は、検証済みのデータを含め、このデータ一式を完全にオープンソース化し、コミュニティ全体に公開することを選びました。

LingBot-Depth-Dataset データセットに基づいて構築された LingBot-Depth は、従来の深度センサーが失効しやすい複雑なシーンでも、実際のスケールを備えた高精度の深度結果を出力できます

LingBot-Depth 関連リンク：

Hugging Face：https://huggingface.co/robbyant/lingbot-depth
ModelScope：https://modelscope.cn/models/robbyant/lingbot-depth
Tech Report：https://arxiv.org/abs/2601.17895

なぜ実データの規模がここまで重要なのでしょうか？

LingBot-Depth-Dataset の価値を理解するには、まず「なぜ実際に収集した深度データが入手しにくいのか」を理解する必要があります。

収集コストが最初のハードルです。高品質な RGB-D データを収集するには、RGB カメラと深度センサーを時間同期し、さらに空間の校正（キャリブレーション）を行う必要があります。校正精度は、深度マップとカラーマップのピクセルの位置合わせ品質に直接影響します。多数のデバイスを大量に展開し、複数のシーンで体系的に収集する工程は、通常の動画収集よりもはるかに複雑です。加えて、異なるシーン（強い光、弱い光、反射面、透明材質）はセンサー性能への影響が大きく異なるため、状況に応じた処理が必要になります。

センサーの元の深度画像には固有の欠陥があります。構造化光（ストラクチャドライト）や ToF センサーで取得される元の深度画像には、一般に大量の無効ピクセル（ホール/空洞）が含まれ、エッジ付近には飛点（flying pixels）が存在します。反射面や透明面では深度値が失効します。つまり、元のセンサー深度画像をそのまま学習の真値（ground truth）として使うことはできず、密で正確な真値深度マップを生成する追加の処理ステップが必要であり、その処理自体が技術的なハードルになります。

真値ラベルを得る難度も高い。画像分類が人工ラベルで済んだり、ネットワークの弱教師ありを使ったりできるのとは異なり、深度の真値は物理測定、または精密な複数センサー融合に依存する必要があります。LiDAR は高精度の疎な点群を提供できますが、カメラとの正確な校正と時間同期が必要です。構造化光システムの精度は限られ、照明への感度も高い。ステレオマッチングは密な深度を提供できますが、テクスチャが平坦な領域では失敗しやすい。どの単一の方式も完璧ではないため、大規模収集では精度、コスト、カバレッジの間でトレードオフを行わざるを得ません。

版権とオープンへの意欲も、もう一つの見えにくいハードルです。産業界では大規模データ収集に多大なリソースを投入していますが、データは公共資源というより競争上の防衛壁（護城河）として見なされがちです。多くのチームはかなりの規模の社内データセットを持っていても、公開のことを一度も考えたことがないことがあります。これにより奇妙な状況が生まれます。学術界のデータへの渇望と、産業界のデータの占有との間には大きな隔たりがあり、学術研究が依存するデータセットは、多くの場合、数年前にあるチームがついでに作った副産物であることが多いのです。

以上の理由から、大規模な実環境の RGB-D データセットは、オープンソースのコミュニティにおいて今なお希少なリソースのままです。

300万ペアのRGB-D：規模の一段階ジャンプ

アリババ・リンボー（蚂蚁灵波）は一気に300万ペアの RGB-D サンプルをオープンソース化しました。現在のオープンソースコミュニティにおいて、これは最大規模の実環境 RGB-D データセットの一つです。

このデータセットは単にデータを積み上げたものではなく、実世界の深度知覚タスクを中心に、構造化した設計が施されており、4つのサブセットで構成されています。

RobbyReal：1,400,000 ペアの多デバイス収集による実際の屋内シーンデータで、データセットの中核を成します。

この部分のデータは Orbbec 335、335L、RealSense D405、D415、D435、D455 の計6種類の市場の主流深度カメラをカバーします。これらのデバイスには、測距範囲、ノイズのパターン、エッジでの振る舞い、異なる材質への応答に明確な差があります。この設計の意義は、デバイス間の差異を事前に学習分布に導入することにあります。

従来のデータセットは往々にして単一デバイスに紐づいており、モデルはそのデバイス上ではうまく動きますが、他のハードウェア環境に移すと性能が明確に低下します。ところが LingBot-Depth-Dataset は複数デバイスのデータを通じて、学習段階からさまざまなセンサー特性に触れさせることで、デバイス間の汎化能力を高めます。

ロボット、AR デバイス、または産業用システムに実際にデプロイする必要があるモデルにとって、この点はそのまま工学的な利用可能性を左右します。

RobbyReal データセットの例

RobbyVla：580,960 ペアのデータで、ロボットが視覚 - 言語 - 動作（VLA）の操作タスクを実行する過程で実際に収集されたものです。

従来の深度データセットの収集ロジックは、人がカメラを持ってシーンをスキャンし、視点は自然で連続的になり、物体は中遠距離に存在します。一方、ロボットの操作タスクでは視点がまったく異なります。対象物を撮影する際の距離は、多くの場合 20-50cm しかありません。物体のエッジにおける深度精度が、把持の成否を決めます。さらに、テーブル上の操作シーンでは照明が複雑で、金属、ガラス、透明プラスチックなどの材質の深度計測自体が難題になります。

こうした特性により、RobbyVla のデータは、既存のデータセットでは代替できない価値を持っています。すなわち、それは実際の具現タスクの制約の下で収集された深度データであり、シーン分布はロボット学習タスクに高度に整合しています。空間認識能力を操作タスクに提供することを目指す研究者にとって、このデータは分布外汎化による損失を直接的に減らせます。

RobbyVla

データセットの例

RobbySim： 999,264 ペアのシミュレーションレンダリングデータで、双方向カメラ視点に基づいて生成されます。

単眼カメラのレンダリングではシステム的な視点バイアスが生じやすいのに対し、生成過程で二眼の設定が視差の制約を導入することで、生成される深度マップは幾何学的な整合性においてより信頼できます。

RobbySim

データセットの例

RobbySimVal 検証セット（38,976 ペア）は標準化されたシミュレーションシーンの評価ベンチマークを提供し、研究者が実データを消費することなく、シミュレーション領域におけるモデルの性能を素早く評価できるようにします。

RobbySimVal 検証セットの例

数量が多いだけでなく、アリババ・リンボー（蚂蚁灵波）はデータセットの品質においても非常に高い基準を設けています。原データの収集から真値の構築まで、LingBot-Depth-Dataset はセンサー出力に単純に依存しているのではなく、深度データに対して体系的な処理と補正を行っています。

各サンプルには、RGB 画像、センサーの元の深度画像、そして真値の深度画像が含まれます。

原始観測 + 真値の完全な対照信号を提供することで、モデルは深度予測を学ぶだけでなく、ノイズのあるデータからどのように真の構造を復元するかも学べます。

また、ラベリングの過程では統一された規範に従い、精度と一貫性を厳密に制御して、ラベルノイズによる学習バイアスを回避しています。これは深層学習において特に重要で、誤った深度ラベルは、ラベルがない場合よりも破壊的になりがちです。

このような数量と品質の担保があるからこそ、LingBot-Depth-Dataset の価値は「利用できるデータセット」にとどまらず、より基盤的な意義を持ち始めています。

ここ数年、業界の注目はより多くがモデルに集中してきました。より大きなパラメータ規模、より複雑なアーキテクチャ、より強い推論能力です。しかし、ますますはっきりしてきた共通認識があります。モデル能力の上限は、より多くの割合でデータによって決まってきているということです。特に、AI が言語から物理世界へ広がるにつれて、データの重要性はさらに増幅されています。世界モデルにはインタラクション可能な環境データが必要で、ロボットはロングテールでありつつ実際のシーン分布に依存し、多モーダルシステムは異なる認識チャネルから来る信号を整合させなければなりません。こうした背景のもとで、大規模で高品質、かつ構造化されたデータセットが、新たな競争の中核になりつつあります。

そして LingBot-Depth-Dataset の登場が本質的に推進しているのは、より土台の転換です。深度知覚を、理想条件に依存する研究室の問題から、徐々に実装可能で再利用可能な工学的な問題へと移していくことです。

最後に書いておくこと

深度推定、深度補完という方向性は、長期にわたりある種の気まずい状態に置かれてきました。下流の需要（ロボット、AR、自動運転）は急速に伸びている一方で、基礎となるデータ資源の公開度は、視覚認識やNLP などの方向性ほどではありません。NYUv2 は十年以上経ってもなお標準の評価セットであるのは、ある意味、それ自体が十分に良いからというより、より良い代替品が現れていないからです。

ちょうど ImageNet が視覚を作り変え、自動運転はシミュレーション環境によって推進されました。具現知能にとって、高品質な空間認識データは、いまだ十分に埋められていないギャップそのものかもしれません。そして LingBot-Depth-Dataset は、深度推定／深度補完分野の新しい世代のベンチマーク基盤になる可能性が高いです。

オープンソース化は、すぐに性能の爆発をもたらすわけではないかもしれません。しかしそれは、より土台の事柄を変えています。私たちはついに、現実世界に十分近い深度データを手にし始めたのです。

アリババ・リンボー（蚂蚁灵波）がこのインフラ層に行ったオープンソースへの投資は、分野全体にとって、最初からデータ収集を行わずに済む研究チームのそれぞれが、より上位の課題に取り組めるようにするものです。

大量の情報、正確な解釈は、新浪財経APPの中へ

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。