تنسنت تفتح مصدر نموذج العالم المختلط 2.0، جملة واحدة لإنشاء عالم ثلاثي الأبعاد يمكن الدخول إليه، يمكن استيراده مباشرة إلى Unity وUE

robot
إنشاء الملخص قيد التقدم

أخبار ME، في 16 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة Beating، أطلقت Tencent رسميًا نموذج العالم ثلاثي الأبعاد المختلط 2.0 (HY-World 2.0) وفتح مصدره. هذا إطار لنموذج العالم متعدد الوسائط، يدعم إدخال النصوص، صورة واحدة، صور متعددة الزوايا وفيديوهات، والنتيجة ليست فيديو، بل أصول ثلاثية الأبعاد قابلة للتحرير (نماذج شبكية، رشاشات Gaussian ثلاثية الأبعاد، سحب النقاط)، ويمكن استيرادها مباشرة إلى Unity و Unreal Engine و NVIDIA Isaac Sim. الأوزان والنصوص البرمجية للنموذج متاحة على GitHub و Hugging Face كمصدر مفتوح. والفرق الجوهري بينه وبين نماذج العالم الفيديوية مثل Genie 3 و Cosmos هو: نماذج العالم الفيديوية تنتج فيديوهات على مستوى البكسل، وتختفي بعد المشاهدة، ولا يمكن تحريرها؛ بينما HY-World 2.0 تنتج أصول ثلاثية الأبعاد دائمة الوجود، تدعم المشي الحر، التصادم الفيزيائي والتحرير الثانوي. في التقرير التقني، لخصت Tencent هذا الاختلاف بـ “مشاهدة مقطع فيديو ثم يختفي” مقابل “بناء عالم دائم الاحتفاظ”. يمكن تصييره في الوقت الحقيقي باستخدام GPU استهلاكي، ويحتاج إلى استنتاج مرة واحدة فقط، على عكس نماذج العالم الفيديوية التي تتطلب تشغيل كل إطار مرة أخرى. من الناحية التقنية، يمر النموذج بأربعة مراحل: أولاً، باستخدام HY-Pano 2.0 لإنشاء صورة بانورامية 360 درجة من المدخلات، ثم تخطيط المسار باستخدام WorldNav، ثم توسيع العالم على طول المسار باستخدام WorldStereo 2.0، وأخيرًا إعادة بناء جميع المقاطع المُنشأة إلى مشهد ثلاثي الأبعاد موحد باستخدام WorldMirror 2.0. في الحلول المفتوحة المصدر، تصف Tencent HY-World 2.0 بأنه أول نموذج عالم ثلاثي الأبعاد يصل إلى مستوى SOTA، ويُقارن أداؤه مع المنتج التجاري المغلق Marble. ومع ذلك، حتى الآن، تم فتح مصدر فقط لرمز ووزن WorldMirror 2.0 (وحدة إعادة البناء ثلاثية الأبعاد، حوالي 1.2 مليار معلمة)، بينما يُشار إلى رموز ووزن وحدات إنشاء الصور البانورامية، تخطيط المسارات وتوسيع العالم بأنها “قريبًا ستصدر”. بالنسبة لمطوري الألعاب، هذا يعني أنه يمكنهم بسرعة إنشاء نماذج أولية للمستويات والخرائط بكلمة واحدة، مما يوفر الكثير من وقت النمذجة اليدوية. وللباحثين في الذكاء المجسد، يقلل بشكل كبير من تكلفة إنشاء بيئات تدريب محاكاة من الصور بشكل جماعي. أطلقت Tencent أيضًا مدخلًا للتجربة عبر الإنترنت، حيث يمكن للمستخدمين التحكم في الشخصيات لاستكشاف الشوارع والمباني المُنشأة بحرية. (المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت