النموذج العالمي يتجه من التنبؤ إلى التخطيط، HWM ومشكلة التحكم على المدى الطويل

robot
إنشاء الملخص قيد التقدم

null مقدمة

تركزت أبحاث النموذج العالمي خلال العام الماضي بشكل أساسي على التعلم التمثيلي والتنبؤ بالمستقبل. يفهم النموذج العالم أولاً، ثم يستعرض الحالة المستقبلية داخليًا. لقد أفرزت هذه المسيرة مجموعة من النتائج المميزة. يستخدم V-JEPA 2 (الهيكل التنبئي المشترك لتضمين الفيديو 2 — نموذج فيديو عالمي أصدرته Meta في عام 2025) أكثر من مليون ساعة من فيديو الإنترنت في التدريب المسبق، ثم يدمج بيانات تفاعل قليلة من الروبوتات، ليظهر إمكانيات النموذج العالمي في الفهم، والتنبؤ، والتخطيط للروبوتات بدون عينات مسبقة.

لكن التنبؤ لا يعني أن النموذج قادر على معالجة مهام طويلة. عند مواجهة التحكم متعدد المراحل، غالبًا ما يواجه النظام ضغطين. أحدهما هو أن خطأ التنبؤ يتراكم باستمرار خلال التمديد الطويل (الاستعراض المستمر لخطوات متعددة)، مما يجعل المسار يبتعد تدريجيًا عن الهدف. والآخر هو أن مساحة البحث عن الأفعال تتسع بسرعة مع زيادة الأفق (نطاق التخطيط)، مما يؤدي إلى ارتفاع تكاليف التخطيط المستمر. لم يغير HWM مسار التعلم الأساسي للنموذج العالمي، بل أضاف بنية تخطيط هرمية فوق النموذج العالمي القائم على الأفعال، بحيث ينظم النظام مسارات المراحل أولاً، ثم يعالج الأفعال المحلية.

من الناحية التقنية، يركز V-JEPA 2 (على التمثيل العالمي والتنبؤ الأساسي)، بينما يركز HWM (على التخطيط طويل المدى)، وWAV (مُحقق الأفعال العالمية: نماذج العالم ذاتية التحسين عبر عدم التماثل الأمامي والخلفي).

  1. لماذا لا يزال التحكم طويل المدى هو قيد النموذج العالمي

صعوبة التحكم طويل المدى، عند تطبيقها على مهام الروبوتات، تصبح أكثر وضوحًا. على سبيل المثال، في تشغيل الذراع الآلية، رفع كوب ثم وضعه في الدرج، ليست حركة واحدة، بل سلسلة من الخطوات المتتالية. يحتاج النظام إلى الاقتراب من الجسم، وضبط الوضعية، وإتمام الالتقاط، والتحرك إلى الموقع المستهدف، ثم التعامل مع الدرج ووضع الكوب. مع طول السلسلة، تظهر مشكلتان في آن واحد: أحدهما هو أن خطأ التنبؤ يتراكم خلال الاستعراض المستمر، والأخرى أن مساحة البحث عن الأفعال تتسع بسرعة.

ما يفتقر إليه النظام عادةً ليس القدرة على التنبؤ المحلي، بل القدرة على تنظيم الأهداف البعيدة إلى مسارات مراحل. العديد من الأفعال، من وجهة نظر محلية، تبدو وكأنها تنحرف عن الهدف، لكنها في الواقع تتطلب خطوات وسيطة لتحقيق الهدف. على سبيل المثال، قبل الالتقاط، يرفع الذراع، وقبل فتح الدرج، يتراجع قليلاً ثم يضبط الزاوية.

في المهام التفاعلية، يمكن للنموذج العالمي أن يقدم تنبؤات متماسكة، لكن عند الانتقال إلى سيناريوهات التحكم الحقيقي، تبدأ الأداءات في التراجع، وتظهر المشاكل. لا تأتي الضغوط فقط من التمثيل نفسه، بل أيضًا من أن مستوى التخطيط بعد لم يكتمل بعد.

  1. كيف يعيد HWM بناء عملية التخطيط

يقسم HWM عملية التخطيط التي كانت تتم في طبقة واحدة إلى طبقتين. الطبقة العليا مسؤولة عن الاتجاهات على مدى زمني أطول، بينما الطبقة السفلى مسؤولة عن التنفيذ المحلي على مدى زمني أقصر. النموذج لا يخطط وفق إيقاع واحد فقط، بل يخطط وفق إيقاعين زمنيّين مختلفين في آنٍ واحد.

عند التعامل مع المهام الطويلة باستخدام طريقة طبقية واحدة، عادةً ما يحتاج إلى البحث مباشرة في مساحة الأفعال الكاملة في الطبقة السفلى. كلما طالت المهمة، زادت تكلفة البحث، وأصبح خطأ التنبؤ أكثر عرضة للتراكم خلال استعراض متعدد الخطوات. بعد تقسيم العملية، تقتصر الطبقة العليا على اختيار المسارات على مدى زمني أطول، بينما تتولى الطبقة السفلى تنفيذ الأفعال الحالية، مما يُقسّم المهمة الطويلة إلى أجزاء أقصر، ويقلل من تعقيد التخطيط.

هناك تصميم رئيسي آخر، وهو أن أفعال الطبقة العليا ليست مجرد فرق بين حالتين، بل تستخدم مشفرًا لضغط سلسلة الأفعال السفلى إلى تمثيل أفعال أعلى مستوى. بالنسبة للمهام الطويلة، المهم ليس فقط مدى الاختلاف بين البداية والنهاية، بل كيف يتم تنظيم الخطوات الوسيطة. إذا اكتفت الطبقة العليا بمراقبة الفارق في الموقع، فقد تفقد معلومات مسار سلسلة الأفعال.

يعكس HWM نوعًا من تنظيم المهام بشكل هرمي. عند مواجهة مهمة متعددة المراحل، لا يوسع النظام جميع الأفعال مرة واحدة، بل يشكل أولاً مسارًا مبدئيًا أكثر خشونة، ثم ينفذ ويصحح خطوة بخطوة. بعد إدخال هذا الهيكل الهرمي في النموذج العالمي، يبدأ التنبؤ في التحول تدريجيًا إلى قدرة على التخطيط بشكل أكثر استقرارًا.

  1. ماذا تعني النتائج من 0% إلى 70%

في مهمة الالتقاط والإفلات في العالم الحقيقي التي أُجريت في الورقة، لم يُعطَ النظام سوى الهدف النهائي، ولم يُوفر له أهداف وسيطة معدة يدويًا. تحت هذه الظروف، تصل نسبة نجاح HWM إلى 70%، بينما كانت نسبة نجاح النموذج العالمي الأحادي 0%. المهمة الطويلة التي كانت شبه مستحيلة، أصبحت قابلة للتحقيق بشكل كبير بعد إدخال التخطيط الهرمي.

كما اختبرت الورقة مهام محاكاة مثل تحريك الأجسام والتنقل في المتاهة. أظهرت النتائج أن التخطيط الهرمي لا يزيد فقط من معدل النجاح، بل يقلل أيضًا من تكلفة الحساب في مرحلة التخطيط. في بعض البيئات، يمكن تقليل تكلفة التخطيط إلى ربعها تقريبًا، مع الحفاظ على معدل نجاح مرتفع أو مماثل.

  1. من V-JEPA إلى HWM ثم WAV

يمثل V-JEPA مسار التمثيل العالمي. يستخدم أكثر من مليون ساعة من فيديو الإنترنت في التدريب المسبق، ثم يدمج أقل من 62 ساعة من فيديو الروبوتات في تدريب لاحق (بعد التدريب المسبق)، ليحصل على نموذج عالمي موجه بالأفعال يمكن فهمه وتنبؤه وتخطيطه للعالم الفيزيائي (في فضاء تمثيلي مجرد، مع دمج معلومات الأفعال في التنبؤ). يُظهر أن النموذج يمكنه اكتساب تمثيل للعالم عبر ملاحظة واسعة النطاق، ونقل هذا التمثيل إلى تخطيط الروبوتات.

أما HWM، فهي المرحلة التالية. النموذج يمتلك بالفعل تمثيلًا عالميًا وقدرة على التنبؤ الأساسي، لكن عند مواجهة التحكم متعدد المراحل، تظهر مشاكل تراكم الأخطاء وتوسع مساحة البحث. لم يغير HWM مسار التعلم الأساسي، بل أضاف بنية تخطيط متعددة الأزمان فوق النموذج العالمي القائم على الأفعال. مهمته هي تنظيم الأهداف البعيدة إلى مجموعة من الخطوات الوسيطة، ثم التقدم خطوة بخطوة.

أما WAV، فهي تركز أكثر على قدرات التحقق. لكي يدخل النموذج العالمي في عمليات تحسين السياسات والنشر، لا يكفي أن يكون قادرًا على التنبؤ، بل يجب أن يكتشف المناطق التي يتعرض فيها للاختلال، ويقوم بتصحيح نفسه بناءً على ذلك. تركز على كيفية فحص النموذج لنفسه.

يمثل V-JEPA التمثيل العالمي، وHWM يركز على التخطيط للمهمات، وWAV يركز على التحقق من النتائج. رغم اختلاف الاهتمامات، فإن الاتجاه العام واحد. المرحلة التالية للنموذج العالمي لن تقتصر على التنبؤ الداخلي، بل ستدمج بين التنبؤ، والتخطيط، والتحقق في نظام متكامل.

  1. من التنبؤ الداخلي إلى نظام قابل للتنفيذ

في السابق، كانت العديد من أبحاث النماذج العالمية تركز على تحسين استمرارية التنبؤ بالحالة المستقبلية، أو استقرار التمثيل الداخلي للعالم. لكن التركيز الآن بدأ يتغير، بحيث يصبح النظام قادرًا على إصدار الأحكام حول البيئة، وتحويل تلك الأحكام إلى أفعال، ثم تصحيح الخطوة التالية بعد ظهور النتائج. لتحقيق نشر حقيقي، يجب السيطرة على انتشار الأخطاء في المهام طويلة المدى، وتقليل نطاق البحث، وخفض تكاليف الاستنتاج.

هذا التغيير يؤثر أيضًا على وكلاء الذكاء الاصطناعي. العديد من أنظمة الوكلاء يمكنها إتمام مهام قصيرة، مثل استدعاء أدوات، وقراءة ملفات، وتنفيذ أوامر متعددة. لكن عندما تصبح المهام طويلة، ومتعددة المراحل، وتتطلب إعادة تخطيط في الوسط، تتراجع الأداءات. هذا لا يختلف جوهريًا عن تحديات التحكم في الروبوتات، حيث يفتقر النظام إلى قدرة تنظيم المسارات العليا، مما يؤدي إلى انفصال بين التنفيذ المحلي والهدف الكلي.

الهيكل الهرمي الذي يقدمه HWM، حيث تتولى الطبقة العليا تنظيم المسارات والأهداف، والطبقة السفلى تنفذ الأفعال وتتعامل مع التغذية الراجعة، مع إضافة التحقق من النتائج، سيظل يظهر بشكل متكرر في أنظمة أكثر. المرحلة التالية للنموذج العالمي لن تقتصر على التنبؤ بالمستقبل، بل ستنظم بين التنبؤ والتنفيذ والتصحيح في مسار يمكن تشغيله.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت