البحث المشترك بين خمس جامعات يجعل الإنسان الرقمي يعتمد على الرؤية في التنقل المستقل في المشهد ثلاثي الأبعاد، حيث تتجاوز نسبة النجاح الخط الأساسي الأمثل بحوالي 30 نقطة مئوية

robot
إنشاء الملخص قيد التقدم
أخبار ME، 14 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 1M AI News، أطلق فريق مشترك من جامعة بكين، جامعة كارنيجي ميلون، جامعة تونجي، جامعة كاليفورنيا في لوس أنجلوس، وجامعة ميشيغان على arXiv إطار عمل الذكاء الاصطناعي الجسدي VGHuman، وهو إطار عمل يتيح للإنسان الرقمي التحرك بشكل مستقل في بيئات ثلاثية الأبعاد غريبة استنادًا فقط إلى الإدراك البصري. سابقًا، كانت أنظمة الإنسان الرقمي تعتمد بشكل عام على نصوص مبرمجة مسبقًا أو معلومات حالة مميزة، وكان هدف VGHuman هو تزويد الإنسان الرقمي فعليًا بعيونه، ليرى الطريق ويخطط ويتحرك بنفسه. يتكون الإطار من طبقتين. الطبقة العالمية (World Layer) تعيد بناء مشهد ثلاثي الأبعاد من فيديو أحادي العين مع علامات دلالية وشبكة تصادم، وتصميم الإدراك المانع يجعلها قادرة على التعرف على الأجسام الصغيرة المخبأة حتى في بيئات خارجية معقدة. الطبقة الوكيل (Agent Layer) تزود الإنسان الرقمي بحاسة RGB-D (ملونة + عمق) من منظور أول، وتستخدم مؤشرات بصرية للإدراك المكاني واستنتاجات تكرارية لتوليد خطط، وأخيرًا يتم تحويلها بواسطة نموذج الانتشار إلى سلسلة حركات كاملة للجسم لتحريك الشخصية. في معيار التنقل عبر 200 مشهد اختبار، عبر مستويات صعوبة تشمل مسارات بسيطة، وتجاوز العقبات، والمشاة الديناميكيين، حقق VGHuman أعلى معدل نجاح يتجاوز حوالي 30 نقطة مئوية عن أقوى الأساسيات مثل NaVILA وNaVid وUni-NaVid، مع معدل تصادم منخفض أو مساوٍ. يدعم الإطار أيضًا أنماط حركة متعددة مثل الجري والقفز، بالإضافة إلى التخطيط لمسافات طويلة للوصول إلى أهداف متعددة متتالية. من المخطط أن يتم إصدار الكود والنماذج كمصدر مفتوح، وقد تم إنشاء مستودع على GitHub. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت