VGHuman هو إطار عمل للذكاء الاصطناعي المادي الذي أطلقته فريق مشترك من جامعة بكين، ومعهد كارنيجي ميلون، وجامعة تونجي، وكلية لوس أنجلوس للفنون والعلوم، وجامعة ميشيغان على arXiv، يعتمد على الرؤية للتنقل المستقل في مشاهد ثلاثية الأبعاد غريبة. الإطار يتكون من طبقة العالم (وهي مجال غاوسي ثلاثي الأبعاد يعيد بناء الفيديو الأحادي مع شبكة تصنيف وملف تصادم، مع مراعاة الحجب) وطبقة العميل (إدراك RGB-D من منظور أول، استنتاج تكراري لتوليد التخطيط، وتحويل نموذج الانتشار إلى حركات كاملة للجسم). في 200 مشهد اختبار، كانت نسبة النجاح أعلى بحوالي 30 نقطة مئوية من خط الأساس مثل NaVILA، مع انخفاض أو تساوي معدل التصادم؛ يدعم حركات القفز والجري والتخطيط على المدى الطويل، ومن المقرر أن يكون الكود مفتوح المصدر، وقد تم إنشاء مستودع على GitHub.

MeNews

2026-05-01 04:33:33

إنشاء الملخص قيد التقدم

أخبار ME، 14 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 1M AI News، قام فريق مشترك من جامعة بكين، جامعة كارنيجي ميلون، جامعة Tongji، جامعة كاليفورنيا في لوس أنجلوس، وجامعة ميشيغان بنشر VGHuman على arXiv، وهو إطار عمل للذكاء الاصطناعي المادي الذي يجعل الإنسان الرقمي يتصرف بشكل مستقل في بيئات ثلاثية الأبعاد غريبة استنادًا فقط إلى الإدراك البصري. سابقًا، كانت أنظمة الإنسان الرقمي تعتمد بشكل عام على النصوص المسبقة أو معلومات الحالة المميزة، وكان هدف VGHuman هو تزويد الإنسان الرقمي فعليًا بعيونه، ليتمكن من رؤية الطريق، والتخطيط، واتخاذ الإجراءات بنفسه. يتكون الإطار من طبقتين. الطبقة العالمية (World Layer) تعيد بناء مشهد ثلاثي الأبعاد غاوسي مع علامات دلالية وشبكة تصادم من فيديو واحد العين، وتصميم الإدراك المانع يمنحه القدرة على التعرف على الأجسام الصغيرة المخبأة حتى في بيئات خارجية معقدة. الطبقة الوكيل (Agent Layer) تزود الإنسان الرقمي بحاسة RGB-D (ملونة + عمق) من منظور أول، وتستخدم إشارات بصرية للإدراك المكاني والتفكير التكراري لتوليد التخطيط، وأخيرًا يتم تحويله بواسطة نموذج الانتشار إلى سلسلة حركات كاملة للجسم لتحريك الشخصية. في معيار التنقل عبر 200 مشهد اختبار، عبر مستويات صعوبة بسيطة، وتجاوز العقبات، والمشاة الديناميكيين، تفوق معدل نجاح مهمة VGHuman بأكثر من 30 نقطة مئوية على خطوط الأساس الأقوى مثل NaVILA وNaVid وUni-NaVid، مع معدل تصادم مساوٍ أو أقل. يدعم الإطار أيضًا أنماط حركة متعددة مثل الركض والقفز، بالإضافة إلى التخطيط لمسافات طويلة للوصول إلى أهداف متعددة متتالية. من المخطط أن يتم إصدار الكود والنموذج كمصدر مفتوح، وقد تم إنشاء مستودع على GitHub. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
466.01K درجة الشعبية
#
USSeeksStrategicBitcoinReserve
58.71M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
37.59K درجة الشعبية
#
BitcoinETFOptionLimitQuadruples
995.24K درجة الشعبية
#
#FedHoldsRateButDividesDeepen
31.26K درجة الشعبية

تثبيت

خريطة الموقع

بحث مشترك بين خمس جامعات يجعل الإنسان الرقمي يعتمد على الرؤية في التنقل المستقل في المشهد ثلاثي الأبعاد، وتجاوز معدل النجاح الخط الأساسي الأمثل بحوالي 30 نقطة مئوية

المواضيع الرائجة

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

تثبيت