VGHuman هو إطار عمل للذكاء الاصطناعي المتمركز على الجسم، أصدرته فريق مشترك من جامعة بكين، جامعة كارنيجي ميلون، جامعة Tongji، جامعة كاليفورنيا في لوس أنجلوس، وجامعة ميشيغان على arXiv، ويُمكنه التحرك بشكل مستقل في مشاهد ثلاثية الأبعاد غريبة باستخدام الرؤية. يقسم الإطار إلى طبقة العالم (ميدان ثلاثي الأبعاد Gaussian مع إعادة بناء فيديو أحادي العين يتضمن دلالات و شبكات تصادم، مع مراعاة الحجب) وطبقة العميل (إدراك RGB-D من منظور أول، استنتاج تكراري لتوليد التخطيط، وتحويل نموذج الانتشار إلى حركات كاملة للجسم). في 200 مشهد اختبار، كانت نسبة النجاح أعلى بحوالي 30 نقطة مئوية من خطوط الأساس مثل NaVILA، مع انخفاض أو تساوي معدل التصادم؛ يدعم حركات القفز والجري والتخطيط على المدى الطويل، ومن المقرر أن يكون الكود مفتوح المصدر، وقد تم إنشاء مستودع على GitHub.

MeNews

2026-05-01 03:10:18

إنشاء الملخص قيد التقدم

أخبار ME، 14 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 1M AI News، أطلق فريق مشترك من جامعة بكين، جامعة كارنيجي ميلون، جامعة تونجي، جامعة كاليفورنيا في لوس أنجلوس، وجامعة ميشيغان على arXiv إطار عمل الذكاء الاصطناعي الجسدي VGHuman، وهو إطار عمل يتيح للإنسان الرقمي التحرك بشكل مستقل في بيئات ثلاثية الأبعاد غريبة استنادًا فقط إلى الإدراك البصري. سابقًا، كانت أنظمة الإنسان الرقمي تعتمد بشكل عام على نصوص مبرمجة مسبقًا أو معلومات حالة مميزة، وكان هدف VGHuman هو تزويد الإنسان الرقمي فعليًا بعيونه، ليرى الطريق ويخطط ويتصرف بنفسه. يتكون الإطار من طبقتين. الطبقة العالمية (World Layer) تعيد بناء مشهد ثلاثي الأبعاد غاوسي مع علامات دلالية وشبكة تصادم من فيديو واحد العين، وتصميم إدراك التداخل يمنحه القدرة على التعرف على الأجسام الصغيرة المخبأة حتى في بيئات خارجية معقدة. الطبقة الوكيل (Agent Layer) تزود الإنسان الرقمي بحاسة إدراك RGB-D (ملونة + عمق) من منظور أول، وتستخدم مؤشرات بصرية للإدراك المكاني واستنتاجات تكرارية لتوليد خطط، وأخيرًا يتم تحويلها بواسطة نموذج الانتشار إلى سلسلة حركات كاملة للجسم تدفع حركة الشخصية. في معيار التوجيه عبر 200 مشهد اختبار، عبر مستويات صعوبة ثلاثة: مسارات بسيطة، وتجاوز العقبات، والمشاة الديناميكيين، حقق VGHuman أعلى معدل نجاح في المهام متجاوزًا خطوط الأساس الأقوى مثل NaVILA وNaVid وUni-NaVid بحوالي 30 نقطة مئوية، مع معدل تصادم مساوٍ أو أقل. يدعم الإطار أيضًا أنماط حركة متعددة مثل الجري والقفز، بالإضافة إلى التخطيط لمسافات طويلة للوصول إلى أهداف متعددة متتالية. من المخطط أن يتم إصدار الكود والنماذج كمصدر مفتوح، وقد تم إنشاء مستودع على GitHub. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
431.3K درجة الشعبية
#
USSeeksStrategicBitcoinReserve
58.68M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
37.16K درجة الشعبية
#
BitcoinETFOptionLimitQuadruples
974.73K درجة الشعبية
#
#FedHoldsRateButDividesDeepen
29.63K درجة الشعبية

تثبيت

خريطة الموقع

المواضيع الرائجة

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

تثبيت