ألبابا تطلق نموذج Qwen-Robot الثلاثي! التنقل، التحكم، والمحاكاة الفيزيائية للروبوتات مرة واحدة وبشكل متكامل

علي بابا فريق Qwen يطلق مجموعة Qwen-Robot، التي تتضمن نماذج أساسية ثلاثية تتعلق بالملاحة، والتحكم، ومحاكاة العالم الفيزيائي، وتحتل المرتبة الأولى في العديد من اختبارات المعايير الروبوتية، وتُعتبر لحظة Android في مجال الروبوتات.
(ملخص سابق: أطلقت علي سؤال "Qwen3.7-Plus" مع انخفاض كبير في الأسعار، لكن على حساب عدم فتح الأوزان)
(معلومات إضافية: Meta تتجه نحو الروبوتات البشرية! تشتري سرًا شركة AI الناشئة Assured Robot Intelligence، وتراهن على "التفاعل مع العالم الفيزيائي" للوصول إلى الذكاء العام الاصطناعي)

فهرس المقال

تبديل

  • Qwen-RobotNav: نموذج الملاحة الخماسي في واحد
  • Qwen-RobotManip: التحكم عبر الروبوتات المختلفة
  • Qwen-RobotWorld: اللغة كواجهة عامة
  • كيف يقارن مع المختبرات الغربية؟

(المصدر: Decrypt، المدونة الرسمية لـQwen)

أطلق فريق Qwen من علي بابا يوم الثلاثاء مجموعة Qwen-Robot، وهي مجموعة من النماذج الأساسية تتكون من ثلاث نماذج "نظام ذكاء متكامل". يتولى Qwen-RobotNav مهمة التنقل، وQwen-RobotManip مسؤول عن التحكم الميكانيكي، وQwen-RobotWorld يحاكي العالم الفيزيائي. تعمل النماذج الثلاثة بشكل مستقل، وعند جمعها تشكل "Android Moment" في مجال الروبوتات، وهو نظام تشغيل وليس جهازًا ماديًا.

Qwen-RobotNav: نموذج الملاحة الخماسي في واحد

يدمج نموذج الملاحة خمس مهام: تتبع الأوامر، والتنقل إلى نقطة الهدف، والبحث عن الأجسام، وتتبع الأهداف، والقيادة الذاتية، وكل مهمة تتطلب استراتيجية ذاكرة بصرية مختلفة. معظم النماذج تركز على استراتيجية واحدة فقط، بينما يوفر Qwen-RobotNav واجهة قابلة للتمديد: ميزانية الرموز، التدهور الزمني، وزن كل إطار، ويمكن للمخطط إعادة التكوين أثناء التنفيذ.

تم تدريب النموذج على 15.6 مليون عينة، وحقق معدل نجاح يصل إلى 76.5% في اختبار معيار VLN-CE RxR (الملاحة البصرية واللغوية في بيئة حقيقية)، ووصل إلى 90% في EVT-Bench (تتبع الأهداف المتحركة).

Qwen-RobotManip: التحكم عبر الروبوتات المختلفة

طرق تمثيل الحركة للروبوتات المختلفة تختلف تمامًا، فذراع Franka يستخدم زوايا المفاصل، والروبوت ذو الذراعين ALOHA يستخدم موضع واتجاه الكماشة، والروبوت البشري يستخدم إحداثيات الجسم بالكامل. استقت علي بابا حوالي 38,100 ساعة من بيانات التدريب من قواعد بيانات الروبوتات المفتوحة ومقاطع الفيديو البشرية، دون الاعتماد على بيانات خاصة.

احتل النموذج المركز الأول في اختبار RoboChallenge Table30-v1، متفوقًا على الطرق السابقة بنسبة 20%.

Qwen-RobotWorld: اللغة كواجهة عامة

هذا هو النموذج الأكثر طموحًا، وهو نموذج عالم فيديو يعتمد على اللغة، ويجعل اللغة الطبيعية واجهة حركة عامة. الأمر "أحضر الكوب الأحمر وصب الماء على الزهرة" يمكن تنفيذه سواء بواسطة الكماشة، أو السيارة الذاتية القيادة، أو وكيل التنقل.

يشمل قاعدة معرفية عن العالم المادي تحتوي على 8.6 مليون زوج من النصوص والفيديوهات، و200 مليون إطار، ويغطي التحكم (590 ألف عينة، أكثر من 1300 مهارة، وأكثر من 20 شكلًا)، والقيادة الذاتية (Waymo، NVIDIA PhysicalAI-AD)، والتنقل الداخلي، والنقل بين 14 نوعًا من الذراع الروبوتية. حصل النموذج على المركز الأول في اختبارَي EWMBench وDreamGen Bench، وحقق درجات كاملة في اختبارات التوافق الفيزيائي مثل قوانين نيوتن، حفظ الكتلة، الديناميكا السائلة والجاذبية.

كيف يقارن مع المختبرات الغربية؟

تسعى مختبرات غربية مثل DeepMind من Google، وNvidia، وFigure، وPhysical Intelligence لتحقيق أهداف مماثلة، لكن معظمها يركز على الملاحة أو التحكم، وليس على حزمة موحدة قابلة للتجميع. تدمج علي بابا بشكل عمودي من الرقائق إلى التطبيقات، مما يمنحها السيطرة على كامل سلسلة القيمة، وجميع هذه النماذج مفتوحة المصدر.

ومع ذلك، ينبه المطورون إلى أن هذه نماذج برمجية وليست روبوتات مادية، وأن النشر الفعلي في سيناريوهات المنزل لا يزال يتطلب سنوات. لم تعلن علي بابا بعد عن الأسعار، والجداول الزمنية، أو قوائم العملاء خارج خطط الاختبار والنماذج التجريبية.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت