تمامًا كما يمكن لـ GPT تحويل prompts وسجلات العمل الخاصة بك إلى مهارات قابلة لإعادة الاستخدام، فإنه أيضًا يحول إخفاقات الروبوت وإصلاحاته المتكررة إلى تجارب يمكن استدعاؤها لاحقًا.

الفرق هو أنه لا يراجع الكود، بل يراجع عمليات التشغيل الخاصة بالروبوت.

في كل مرة ينفذ فيها الروبوت مهمة، يسجل ASPIRE عمليات الإدراك، والملاحة، والالتقاط، والاصطدام، وتخطيط الحركة، وغيرها.

ويقوم GPT/Claude الذي يستدعيه في الخلفية، مثل باحث، بتحديد مكان المشكلة في المهمة وتكرار البرنامج. إذا نجح التنفيذ، يتم كتابة الخبرات المتراكمة في Skill.

وهكذا، يمكن للروبوت أن يتعلم باستمرار من خلال كتابة الكود، ومشاهدة مسار التنفيذ، وتعديل البرنامج، وتراكم المهارات.

وهذا ليس مجرد تحويل خبرات الروبوت إلى مهارات بهذه البساطة.

كما صرح مدير قسم الروبوتات في NVIDIA، Jim Fan، بأن ASPIRE تمثل نموذجًا جديدًا تمامًا للتعلم المستمر.

حيث:

التدريب، تحول من الانحدار التدرجي (Gradient Descent) إلى صقل المهارات (Skill Refinement)؛
النموذج المُدرَّب، لم يعد مجرد مجموعة من الأوزان العائمة، بل أصبح مكتبة مهارات روبوتية تتوسع باستمرار (Sensorimotor Skills)؛
التدريب الموزع، تحول إلى مجموعة من الوكلاء (Agents) يتدربون كل على مهارة مختلفة، ثم يجمعون الخبرات في مكتبة مهارات واحدة.

ما يُدرَّب، ليس بالضرورة أوزانًا

على الرغم من أن المقدمة قد أوضحت التفاصيل، إلا أنني سأضيف بعض الخلفية قبل شرح كيفية تغيير نموذج تدريب الروبوتات.

الاسم الكامل لـ ASPIRE هو Agentic Skill Programming through Iterative Robot Exploration.

يسمح للروبوت بتنفيذ المهام باستخدام الكود، وعند الفشل، مشاهدة مسار التنفيذ متعدد الوسائط، ثم تعديل البرنامج، وتخزين الخبرات المُصلحة في مكتبة مهارات متزايدة باستمرار.

هذه المهارة (Skill)، على الرغم من أنها في جوهرها لا تزال سياقًا يُغذى للنموذج الكبير، إلا أنها تخزن مجموعة من أنماط إصلاح الكود المُثبتة (Code Repair Pattern)، مما يسمح للروبوت بمعرفة كيفية تعديل برنامج التحكم عند مواجهة مشكلة معينة.

على سبيل المثال، عندما يحاول الروبوت التقاط راديو، وقد تعرف على الهدف بالفعل، لكنه لا يستطيع الاقتراب منه.

يمكن للوكيل تحليل أن السبب ليس خطأ في التعرف، بل أن النقاط المستهدفة التي يعطيها المخطط (Planner) تقع جميعها داخل منطقة الاصطدام بالعائق.

وبالتالي، بناءً على هذه التجربة، سيقوم ASPIRE بتلخيص مهارة جديدة:

إذا واجهت فشل تخطيط كهذا، حاول الاقتراب من الهدف من زوايا مختلفة مثل 45° و90° و180° وما إلى ذلك، حتى تجد مسارًا خاليًا من الاصطدامات.

في المستقبل، عند مواجهة مواقف مماثلة، سواء كان الهدف راديوًا أو ميكروويف أو أي أثاث آخر، يمكن إعادة استخدام هذه الخبرة مباشرة دون الحاجة لتجربة الأخطاء مرة أخرى.

قد تتساءل الآن: أليس تدريب الروبوتات يجب أن يكون حول البيانات، الانحدار التدرجي، أوزان النموذج، التجميع الحقيقي، نقل المحاكاة إلى الواقع؟

فجأة أصبح كل شيء عن تجميع المهارات؟

هنا يجب أولاً تقديم نموذج شائع مؤخرًا، وهو Code as Policy.

على عكس نماذج السياسة من طرف إلى طرف مثل VLA، لا يجعل Code as Policy النموذج يخرج حركات الروبوت مباشرة، بل يطلب من النموذج الكبير كتابة برنامج تحكم قابل للتنفيذ للروبوت.

يمكن للبرنامج استدعاء وحدات الإدراك، وواجهات برمجة التخطيط، والأوامر البدائية للتحكم، مثل التعرف على الأشياء، تخطيط المسار، تحريك الذراع الميكانيكية، تنفيذ الالتقاط.

بهذه الطريقة، لم يعد سلوك الروبوت مخفيًا بالكامل في أوزان الشبكة العصبية، بل أصبح كودًا قابلًا للتنفيذ.

مع وجود الكود، يمكن لنماذج الوكيل القوية جدًا حاليًا فحصه وتعديله وتصحيحه وتحسينه.

لكن في الماضي، كان لدى Code as Policy مشكلتان.

أولاً، عندما يفشل الروبوت، يعرف النظام عادةً فقط أن "المهمة لم تكتمل"، لكنه لا يعرف ما إذا كان السبب هو خطأ في الإدراك، أو عدم ثبات الالتقاط، أو اصطدام في تخطيط المسار، أو مشكلة في حركة الاستعادة.

ثانيًا، والأهم، لا يتذكر.

بعد إكمال مهمة، يتم التخلص من حلول الإصلاح واستراتيجيات الاستعادة وطريقة كتابة prompts التي تم اكتشافها أثناء التصحيح، وعند مواجهة مشكلة مماثلة في المرة القادمة، يجب البدء من جديد.

لهذا قال Jim Fan:

(مع ASPIRE) عندما يكمل الروبوت المهمة رقم 100، لم يعد جاهلاً كما كان عندما أكمل المهمة رقم 1.

ببساطة، هذه العملية تشبه تمامًا مهندس الروبوتات البشري:

عند فشل برنامج روبوت، يراجع المهندس عملية التنفيذ، وينظر إلى نتائج الإدراك، ويحلل مسار الحركة، ويقرر ما إذا كان الخطأ في الالتقاط، التخطيط، أو أن حركة استعادة معينة لم تنجح.

بعد الإصلاح، يسجل المهندس هذه الخبرة. في المرة القادمة التي يواجه فيها جسمًا على حافة الطاولة، مقبض درج، أو ملاحة في مساحة ضيقة، لن يبدأ من الصفر.

وما يفعله ASPIRE هو نقل آلية تراكم الخبرات هذه إلى الوكيل. لا يقتصر الأمر على جعل النموذج الكبير يكتب كود الروبوت، بل يجعله يجرب مرارًا، ويراجع مرارًا، ويصلح مرارًا داخل بيئة التنفيذ، وأخيرًا يخزن خبرات الإصلاح المثبتة كمهارات.

لذا، في ASPIRE، لم يعد التدريب مجرد انحدار تدرجي.

أصبحت عملية التدريب هي صقل المهارات؛ وناتج التدريب ليس مجرد أوزان النموذج، بل مكتبة مهارات يبنيها الروبوت وينميها باستمرار.

خط أنابيب ثلاثي المراحل

في الورقة البحثية، تم تنفيذ هذه الفكرة كخط أنابيب من ثلاث مراحل.

أولاً، محرك تنفيذ الروبوت (robot execution engine).

في برامج الروبوت التقليدية، عند الفشل، قد يخبرك النظام فقط أن المهمة لم تكتمل.

يقوم ASPIRE بتفصيل الفشل، وفي كل مرة يحدث فيها إدراك، تخطيط، التقاط، استدعاء تحكم، يتم تسجيل المدخلات، المخرجات، الأدلة البصرية، وسجلات الأخطاء.

مثلما يراجع مهندسو الروبوتات البشرية الفيديو وينظرون إلى المسارات ويتحققون ما إذا كان الخطأ في الإدراك أم الالتقاط، يقوم ASPIRE بنقل هذه العملية إلى وكيل برمجة.

ثانيًا، مكتبة المهارات (skill library). بعد أن يقوم الوكيل بإصلاح البرنامج، لا يتخلص من هذه الخبرة، بل يحولها إلى معرفة قابلة لإعادة الاستخدام.

في مكتبة المهارات على الموقع، يمكن رؤية عناصر محددة جدًا، مثل كيفية كتابة نص SAM3، كيفية الاقتراب من الأجسام على حافة الطاولة من زوايا متعددة، كيفية تصفية الكشف الزائف لمقابض الأدراج، وأي نوع من الحركات البدائية يجب استخدامه عند دفع الأجسام المسطحة.

هذه المهارات ليست مثل أوزان النماذج التقليدية، بل تشبه ملاحظات الأخطاء التي يدونها مبرمجو الروبوتات.

أخيرًا، البحث التطوري (evolutionary search).

وكيل واحد لا يكتفي بمحاولة مسار إصلاح واحد، بل يقوم النظام بإنشاء عدة برامج تحكم مرشحة، ويجعلها تعمل في بيئة التنفيذ، ثم يستمر في التكرار بناءً على البرامج الناجحة ومسارات الفشل.

في هندسة البرمجيات، اعتاد وكلاء البرمجة على كتابة الكود، تشغيل الاختبارات، مراجعة التتبعات، وتصحيح الأخطاء. ما يفعله ASPIRE هو نقل هذه الحلقة إلى العالم المادي.

التحقق التجريبي

للتحقق من صحة هذه الطريقة، تم اختبار الورقة على ثلاثة معايير كلاسيكية للروبوتات، بما في ذلك LIBERO-Pro وRobosuite وBEHAVIOR-1K، والتي تغطي العمليات العامة، والعمليات التي تتطلب تلامسًا كثيفًا، والمهام المنزلية الطويلة.

كانت النتائج الإجمالية أفضل بشكل ملحوظ من طرق Code as Policy السابقة.

على سبيل المثال، في مهمة تسليم الجسم بين ذراعين (Bimanual Handover) في Robosuite، رفع ASPIRE نسبة النجاح من 20% إلى 92%.

أما بالنسبة لقابلية التعميم.

أولاً، تم تجميع مكتبة المهارات على LIBERO-90، ثم تم نقلها مباشرة إلى مهام LIBERO-Pro الطويلة التي لم يسبق رؤيتها، دون تدريب إضافي على المهام الجديدة أو تحديث مكتبة المهارات.

أظهرت النتائج أنه مع زيادة تنوع مكتبة المهارات، ارتفع معدل نجاح الروبوت في المهام الجديدة، من عدم القدرة تقريبًا إلى الوصول إلى 31%. بمعنى آخر، كلما زادت ثراء مكتبة المهارات، قل تشبه الروبوت بمبتدئ.

مقدمة عن المؤلفين

في نهاية المدونة التقنية، كشفت NVIDIA عن قائمة المؤلفين الكاملة.

لا تزال الوجوه المألوفة من فريق GEAR: Jim Fan، Zhu Yuke، Guanzhi Wang، Shi Guanya، وغيرهم.

المؤلفون الثلاثة الأوائل هم المساهمون المشتركون.

حيث أن Runyu Lu حاليًا طالب دكتوراه في السنة الثانية بجامعة ميشيغان، ويتدرب في GEAR؛ Yuubo Wu من جامعة إلينوي في أوربانا-شامبين (UIUC)، وEthan Kou من جامعة كاليفورنيا، بيركلي، وهو لا يزال طالبًا جامعيًا.

يُذكر أنه بالأمس فقط، أعلنت NVIDIA أيضًا عن توسيع توظيف فريق الروبوتات المحلي في الصين، وفتحت العديد من المناصب في بكين وشنغهاي وشنتشن، تغطي مجالات مثل الحضور الذكي، المحاكاة، نشر الروبوتات، وهندسة الحلول.

المصدر: Quantum Bit

إخلاء المسؤولية ومخاطر الاستثمار

        السوق يحمل مخاطر، والاستثمار يتطلب الحذر. لا تشكل هذه المقالة نصيحة استثمارية شخصية، ولا تأخذ في الاعتبار أهداف الاستثمار الخاصة أو الوضع المالي أو احتياجات المستخدمين الفرديين. يجب على المستخدمين النظر فيما إذا كانت أي آراء أو وجهات نظر أو استنتاجات في هذه المقالة تناسب ظروفهم الخاصة. الاستثمار بناءً على ذلك يكون على مسؤوليتهم الشخصية.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateCompletesDividendDistribution
132.91K درجة الشعبية
#
StrategyBuybackSurges12%
1.11M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
67.27K درجة الشعبية
#
PredictWorldCupShare20000U
542.75K درجة الشعبية
#
TrumpDisclosesOver100MBTCETH
3.83M درجة الشعبية

مُثبت

خريطة الموقع

لحظة مهارات الذكاء الجسدي! إنفيديا تفتح مكتبة مهارات الروبوتات، جيم فان: تغير النموذج.

ما يُدرَّب، ليس بالضرورة أوزانًا

خط أنابيب ثلاثي المراحل

التحقق التجريبي

مقدمة عن المؤلفين

المواضيع الرائجة

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

مُثبت