3 ملايين زوج من العينات، و2 مليون زوج من الصور الحقيقية: أخيرًا تم كسر جفاف البيانات في تقدير العمق

MaticHoleFiller · 2026-04-05T18:14:48+00:00

(المصدر: Machine Heart)فريق تحرير Machine Heartكل من يعمل في تقدير العمق أو إكمال العمق غالبًا ما مر بهذه اللحظة.عندما يحقق النموذج نتائج جيدة على معايير كلاسيكية مثل NYU Depth V2، وتكون المؤشرات مرضية، لكن بمجرد نشر النموذج على روبوت حقيقي، تظهر المشاكل على الفور: حواف خريطة العمق غير واضحة، والانحراف في المسافات البعيدة، وعند مواجهة مواد عاكسة، يتوقف النموذج عن العمل تقريبًا.رد الفعل الأول غالبًا ما يكون أن هناك خطأ في التنفيذ، لذلك يتم فحص الكود وعمليات التدريب. لكن في النهاية، ستكتشف أن الكود لا يحتوي على مشكلة.المشكلة تكمن في البيانات.في الواقع، هذه ليست حالة فردية، بل واحدة من التحديات المستمرة في هذا المجال.التقدم الأكاديمي في تقدير العمق وإكماله، إلى حد ما، مقيد بحدود مجموعات البيانات. على مدى العقود العشرة الماضية،...

MaticHoleFiller

2026-04-05 18:14:48

（المصدر: آلة التفكير (جينغزي)）

هيئة تحرير آلة التفكير (جينغزي)

من يقومون بإجراء تقدير عميق واستكمال عميق، فمن المحتمل أنهم مرّوا بلحظة من هذا النوع.

حقق النموذج درجات جميلة على معيار مرجعي كلاسيكي مثل NYU Depth V2، وكانت المؤشرات أيضًا جذابة بما يكفي. لكن بمجرد نشر النموذج نفسه على روبوت حقيقي، تظهر المشكلة فورًا: يتشوّه عمق حدود الصورة، ويحدث انحراف في المسافات البعيدة، وعند مواجهة مواد عاكسة تتعطل النتائج تقريبًا بشكل مباشر.

غالبًا ما تكون ردّك الأول أن هناك خطأ برمجي (bug)، لذا تفحص كل شيء بدءًا من الكود وحتى خطوات التدريب. لكن في النهاية ستكتشف أن الكود ليس به مشكلة.

المشكلة تكمن في البيانات.

في الواقع، هذه ليست حالة منفردة، بل واحدة من صعوبات مزمنة طويلة الأمد في هذا المجال.

تُقيد التطورات الأكاديمية في تقدير العمق واستكمال العمق، إلى حد ما، سقف البيانات المفروض. خلال العقود العديدة الماضية، اعتمد المجتمع بشكل كبير على عدة مجموعات بيانات كلاسيكية: تهيمن NYU Depth V2 على مشاهد الشقق والمكاتب، لكن التغطية داخل المنازل محدودة؛ وتستهدف KITTI القيادة الذاتية، إذ إن مشاهد الطرق الخارجية متينة، لكن لا فائدة مباشرة لها تقريبًا بالنسبة للذكاء المُجسَّد؛ وقد قدّمت ScanNet إسهامًا كبيرًا في إعادة البناء داخل المنازل، لكن تنسيق تسلسل الإطارات الخاص بها ليس مصممًا للتدريب على العمق المقترن؛ وتختلف ETH3D وDIML في التركيز، لكن أحجامها جميعًا لا تكفي لدعم احتياجات التدريب في عصر النماذج الكبيرة الحالية.

رغم وجود مجموعات بيانات مُصنَّعة الآن يمكنها سد نقص البيانات، فإن هناك فجوة يمكن تمييزها بالعين المجردة بين بيانات الاصطناع من حيث مواد التصيير وبين المشاهد الحقيقية. إن الحدس العمقي الذي يتعلمه النموذج على البيانات المُصنَّعة غالبًا ما ينهار مباشرة عند مواجهة معادن عاكسة شفافة، وزجاج شفاف، ونسيج معقد في العالم الحقيقي.

هذه الفجوة، وبدون بيانات حقيقية واسعة النطاق، يصعب تحقيق حل منهجي. وحتى نهاية مارس/آذار، بدأت هذه الحالة أخيرًا في الانفراج.

أنجزت شركة Ant Lingbo (蚂蚁灵波) شيئًا طال انتظاره في هذا المجال: إطلاق مفتوح دفعة واحدة لحوالي 3 ملايين زوج من بيانات RGB - عمق عالية الجودة — LingBot-Depth-Dataset. تحتوي كل عينة في الوقت نفسه على صورة RGB، وعمقًا أوليًا من المستشعر، وعمقًا حقيقيًا مطابقًا (ground truth)، لتوفير إشارة مقارنة كاملة للتدريب.

بلغ الحجم الإجمالي للمجموعة 2.71 تيرابايت، ويشمل ذلك حوالي 2 مليون زوج من بيانات RGB-D تم جمعها فعليًا و1 مليون زوج من بيانات مصيّرة عالية الجودة؛ وفي جزء البيانات الحقيقية، تغطي 6 كاميرات عمق شائعة في السوق: Orbbec 335 و335L، وRealSense D405 وD415 وD435 وD455، وذلك من أجل استعادة توزيع الإدراك الحقيقي قدر الإمكان تحت ظروف عتاد مختلفة.

تُصدر هذه المجموعة البيانات بموجب رخصة CC BY-NC-SA 4.0، ما يسمح بالاستخدام الحر وإعادة التوليف في السياقات الأكاديمية وغير التجارية.

مجتمع ModelScope من “魔搭”: https://modelscope.cn/datasets/Robbyant/LingBot-Depth-Dataset
HuggingFace: https://huggingface.co/datasets/robbyant/mdm_depth

في الواقع، تم التحقق من فعالية هذه المجموعة من منظور النماذج منذ وقت طويل. وقد قامت Ant Lingbo في شهر يناير من هذا العام بإطلاق نموذج استشعار ذكاء مُجسَّد LingBot-Depth مفتوح المصدر، وهو مبني تحديدًا على هذه البيانات للتدريب.

من ناحية التأثير الفعلي، يمكن لـ LingBot-Depth تحسين جودة مخرجات العمق بشكل ملحوظ في سيناريوهات المواد المعقدة مثل المواد الشفافة والعاكسة، دون تغيير العتاد. كما أنه في مؤشرين رئيسيين للجودة—دقة العمق وتغطية البكسلات—يتفوق حاليًا بشكل شامل على أفضل كاميرات RGB-D صناعية من الدرجة العالية المتاحة في السوق.

وبناءً على ذلك، اختارت Ant Lingbo إطلاق هذه المجموعة كاملة كمصدر مفتوح، وفتح البيانات التي تم التحقق منها داخليًا أمام المجتمع بأسره.

بناءً على

LingBot-Depth-Dataset مجموعة البيانات، فإن LingBot-Depth المبني عليها، حتى في السيناريوهات المعقدة التي يسهل فيها تعطل مستشعرات العمق التقليدية، لا يزال قادرًا على إخراج نتائج عمق عالية الدقة بأحجام حقيقية

روابط LingBot-Depth ذات الصلة:

Hugging Face: https://huggingface.co/robbyant/lingbot-depth
ModelScope: https://modelscope.cn/models/robbyant/lingbot-depth
Tech Report: https://arxiv.org/abs/2601.17895

لماذا يعد حجم البيانات الحقيقية بهذه الأهمية؟

لفهم قيمة LingBot-Depth-Dataset، يجب أولًا فهم لماذا يصعب الحصول على بيانات العمق التي يتم جمعها فعليًا.

تُعد تكلفة الجمع أول عقبة. يتطلب جمع بيانات RGB-D عالية الجودة مزامنة زمنية ومعايرة مكانية بين كاميرا RGB ومستشعر عمق، وتؤثر دقة المعايرة مباشرة على جودة محاذاة البكسلات بين خريطة العمق والصورة الملوّنة. إن نشر عدة أجهزة على نطاق واسع وجمع البيانات بشكل منهجي عبر عدة سيناريوهات يزيد التعقيد الهندسي كثيرًا مقارنة بجمع مقاطع فيديو عادية. بالإضافة إلى ذلك، تختلف بشكل واضح آثار الإضاءة (قوية أو ضعيفة) والأسطح العاكسة والمواد الشفافة على أداء المستشعر بين السيناريوهات المختلفة، ما يتطلب معالجة مخصصة.

توجد عيوب جوهرية في خرائط العمق الأولية للمستشعر. غالبًا ما تتضمن خرائط العمق الأولية التي تجمعها مستشعرات الإضاءة الهيكلية (structured light) وToF عددًا كبيرًا من البكسلات غير الصالحة (فراغات/حُفر)، وتوجد “نقاط طائرة” (flying pixels) عند الحواف. كما تفشل قيم العمق على الأسطح العاكسة أو الشفافة. وهذا يعني أن خرائط عمق المستشعر الأولية لا يمكن استخدامها مباشرة كعمق مطابق للحقيقة (ground truth) للتدريب، بل تحتاج إلى خطوات معالجة إضافية لتوليد خرائط عمق حقيقية كثيفة ودقيقة، وتُعد هذه المعالجة بحد ذاتها مشكلة ذات عتبة تقنية.

تزداد صعوبة الحصول على “الحقيقة المرجعية” (ground truth) للمشروح. فبالخلاف عن تصنيف الصور الذي يمكن أن يعتمد على وسم يدوي أو على إشراف ضعيف من الشبكات، يجب أن يعتمد عمق الحقيقة المرجعية على قياسات فيزيائية أو دمج دقيق متعدد المستشعرات. يمكن أن يوفر الرادار الليزري (LiDAR) نقاط سحابية متفرقة عالية الدقة، لكن ذلك يتطلب معايرة دقيقة مع الكاميرا ومزامنة زمنية؛ بينما أنظمة الإضاءة الهيكلية دقتها محدودة وحساسة للإضاءة؛ ويمكن أن توفر المطابقة المجسمة عمقًا كثيفًا لكن يفشل عادةً في مناطق نسيجها مسطح. لا توجد أي خطة واحدة كاملة تمامًا، ولا بد من تحقيق توازن كبير عند الجمع على نطاق واسع بين الدقة والتكلفة ومدى التغطية.

تشكل حقوق الملكية الفكرية ووجود النية على الانفتاح أيضًا عتبة خفية أخرى. تستثمر الصناعة في جمع البيانات على نطاق واسع موارد كبيرة، لكن غالبًا ما تُنظر البيانات على أنها “سور حماية تنافسي” بدل اعتبارها موردًا عامًا. تمتلك العديد من الفرق مجموعات بيانات داخلية كبيرة، لكنها لم تفكر أبدًا في فتحها. وهذا يخلق وضعًا غريبًا: يوجد تباين واسع بين شغف الأوساط الأكاديمية بالبيانات وامتلاك الصناعة لها؛ وغالبًا ما تعتمد الأبحاث الأكاديمية على مجموعات بيانات تُعد منتجات ثانوية لعمل قام به فريق ما منذ سنوات.

لهذه الأسباب جميعًا، تظل مجموعات بيانات RGB-D واسعة النطاق للسيناريوهات الحقيقية نادرة ضمن مجتمع المصادر المفتوحة حتى الآن.

3 ملايين زوج من RGB-D: قفزة بحجم مرة

أطلقت Ant Lingbo مفتوحًا دفعة واحدة 3 ملايين زوج من عينات RGB-D. وفي مجتمع المصادر المفتوحة الحالي، تُعد هذه واحدة من أكبر مجموعات بيانات RGB-D للسيناريوهات الحقيقية.

لم تكن المجموعة عبارة عن مجرد تكديس للبيانات، بل تصميمًا مُهيكلًا حول مهمة إدراك العمق في العالم الحقيقي، ويتألف من أربعة مجموعات فرعية:

RobbyReal: 1,400,000 زوج من بيانات سيناريوهات داخلية حقيقية تم جمعها عبر أجهزة متعددة، وتشكل لبّ الجسم الرئيسي للمجموعة.

تغطي هذه البيانات 6 كاميرات عمق شائعة في السوق: Orbbec 335 و335L، وRealSense D405 وD415 وD435 وD455. تختلف هذه الأجهزة بشكل ملحوظ في نطاق القياس، وأنماط الضوضاء، والأداء عند الحواف، والاستجابة لمواد مختلفة. وتكمن قيمة هذا التصميم في: إدخال فروقات الأجهزة عبر التدريب إلى توزيع البيانات مسبقًا.

غالبًا ما تكون مجموعات البيانات التقليدية مرتبطة بجهاز واحد، ويؤدي النموذج جيدًا على ذلك الجهاز. لكن بمجرد نقله إلى بيئات عتاد أخرى، تنخفض الأداءات بشكل واضح. وتقوم LingBot-Depth-Dataset عبر بيانات الأجهزة المتعددة بأن يلامس النموذج خصائص المستشعر المختلفة في مرحلة التدريب، ما يعزز قدرته على التعميم عبر الأجهزة.

وبالنسبة للنماذج التي تحتاج إلى نشر فعلي في الروبوتات أو أجهزة الواقع المعزز أو الأنظمة الصناعية، فإن هذه النقطة تحدد مباشرة مدى قابليتها للاستخدام الهندسي.

مثال على مجموعة RobbyReal

RobbyVla: 580,960 زوجًا من البيانات، مأخوذة من عملية جمع حقيقية أثناء تنفيذ مهام الروبوت في الرؤية - اللغة - الحركة (VLA).

منطق جمع البيانات في مجموعات البيانات العميقة التقليدية هو أن الإنسان يحمل الكاميرا لمسح المشهد، فتكون الزاوية طبيعية ومستمرة، وتكون الأجسام في المدى القريب-المتوسط وحتى البعيد. لكن زاوية مهام تشغيل الروبوت مختلفة تمامًا: عند تصوير الهدف، تكون المسافة غالبًا 20-50cm فقط؛ ودقة العمق عند حواف الأجسام تحدد نجاح عملية الالتقاط والفشل؛ وفي سيناريوهات تشغيل سطح الطاولة تكون الإضاءة معقدة، ويعد قياس العمق بحد ذاته صعبًا لمواد مثل المعادن والزجاج واللدائن الشفافة.

هذه الخصائص تجعل بيانات RobbyVla تمتلك قيمة لا يمكن استبدالها ببيانات موجودة: فهي بيانات عمق تم جمعها تحت قيود مهام مجسدة حقيقية، بحيث يكون توزيع المشاهد متوافقًا بدرجة عالية مع مهام تعلم الروبوت. وبالنسبة للباحثين الذين يريدون تدريب قدرات الإدراك المكاني لخدمة مهام تشغيل، يمكن لهذه الدفعة من البيانات أن تقلل مباشرة خسارة التعميم خارج التوزيع.

RobbyVla

مثال على مجموعة البيانات

RobbySim: 999,264 زوجًا من بيانات التصيير المحاكاة، بناءً على زاويتين بالكاميرتين.

قد يؤدي تصيير بكاميرا واحدة إلى انحرافات زاوية منهجية. أما إعداد الكاميرتين فيضيف قيود التباين (parallax) أثناء التوليد، ما يجعل خرائط العمق المولدة أكثر موثوقية من ناحية الاتساق الهندسي.

RobbySim

مثال على مجموعة البيانات

RobbySimVal مجموعة التحقق (38,976 زوجًا) توفر معيارًا لتقييم مشاهد محاكاة موحدًا، مما يتيح للباحثين تقييم أداء النموذج في المجال المحاكى بسرعة دون استهلاك بيانات حقيقية.

مثال على مجموعة التحقق RobbySimVal

بالإضافة إلى العدد الكبير، وضعت Ant Lingbo أيضًا معايير عالية جدًا لجودة المجموعة. فمن الجمع الأصلي إلى بناء الحقيقة المرجعية (ground truth)، لم تعتمد LingBot-Depth-Dataset ببساطة على مخرجات المستشعر، بل أجرت معالجة وتصحيحًا منهجيًا لبيانات العمق.

تحتوي كل عينة على صورة RGB، وخريطة عمق أولية من المستشعر، وخريطة عمق حقيقة مرجعية.

من خلال توفير إشارة مقارنة كاملة تجمع بين المشاهدة الأولية (raw observations) والحقيقة المرجعية، يمكن للنموذج ليس فقط تعلم تنبؤ العمق، بل أيضًا تعلم كيفية استعادة البنية الحقيقية من البيانات المليئة بالضوضاء.

وفي الوقت نفسه، تتبع البيانات أثناء عملية الوسم معايير موحدة، مع ضبط صارم للدقة والاتساق، لتجنب الانحرافات التدريبية الناتجة عن ضوضاء الوسوم. وتعد هذه النقطة حاسمة خصوصًا في التعلم العميق؛ فالتسميات الخاطئة للعمق غالبًا ما تكون أكثر تدميرًا من غياب التسميات.

وبسبب ضمان الكمية والجودة على هذا النحو، لم يعد معنى LingBot-Depth-Dataset مجرد كونها مجموعة بيانات قابلة للاستخدام، بل أصبحت تمتلك أهمية أكثر أساسًا.

خلال السنوات الماضية، كان اهتمام الصناعة أكثر تركيزًا على النماذج: أحجام أكبر للمعلمات، وهياكل أكثر تعقيدًا، وقدرات استدلال أقوى. لكن هناك إجماع متزايد أصبح واضحًا: إن الحد الأعلى لقدرة النموذج يتحدد بشكل متزايد بواسطة البيانات. وبالأخص أثناء انتقال الذكاء الاصطناعي من اللغة إلى العالم الفيزيائي، تتضخم أهمية البيانات: يحتاج نموذج العالم إلى بيانات بيئة قابلة للتفاعل، ويعتمد الروبوت على ذيول طويلة وتوزيعات مشاهد حقيقية، بينما يجب على الأنظمة متعددة الوسائط مواءمة الإشارات القادمة من قنوات إدراك مختلفة. في هذا السياق، أصبحت المجموعات البيانية الكبيرة والعالية الجودة والمهيكلة عنصرًا تنافسيًا جديدًا.

ومن هنا، فإن ظهور LingBot-Depth-Dataset يدفع جوهريًا إلى تحول أعمق: أن الإدراك العميق، من مشكلة مختبرية تعتمد على شروط مثالية، يتجه تدريجيًا نحو مشكلة هندسية يمكن تطبيقها وإعادة استخدامها.

كلمة أخيرة

يعيش اتجاه تقدير العمق والاستكمال العميق على مدى فترة طويلة في حالة محرجة: الطلب من التطبيقات النهائية (الروبوتات، الواقع المعزز، القيادة الذاتية) ينمو بسرعة، لكن مستوى انفتاح موارد البيانات الأساسية لا يرقى كثيرًا إلى ما في مجالات مثل التعرف البصري وNLP. تظل NYUv2 بعد أكثر من عقد من الزمن معيار تقييم قياسي، إلى حد ما لأن لم يظهر بديل أفضل، لا لأنها بحد ذاتها كافية الجودة.

كما أن ImageNet أعاد تشكيل مجال الرؤية، ودفعت البيئات المحاكاة القيادة الذاتية. وبالنسبة للذكاء المُجسَّد، قد تكون بيانات إدراك مكاني عالية الجودة هي الفجوة التي لم تُملأ بشكل كاف بعد، وقد تصبح LingBot-Depth-Dataset مرجحًا أن تكون الأساس للجيل الجديد من benchmark في مجال تقدير العمق/استكمال العمق.

قد لا يؤدي الانفتاح مفتوح المصدر إلى انفجار فوري في الأداء. لكنّه يغير شيئًا أكثر أساسًا: أخيرًا أصبح لدينا بيانات عمق قريبة بما يكفي من العالم الحقيقي.

استثمار Ant Lingbo في الانفتاح مفتوح المصدر لهذه البنية التحتية، بالنسبة للمجال بأسره، يعني أن كل فريق بحثي لا يحتاج إلى جمع البيانات من الصفر يمكنه توجيه جهوده إلى مشاكل على مستوى أعلى.

كمّ هائل من المعلومات وتفسير دقيق، متوفر عبر تطبيق Sina Finance APP

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.