عجلة البيانات؟ عينات مكررة؟ على الروبوت أن يودع عبادة ساعات العمل«».

كان عالم الروبوتات أنيميش غارغ، الذي عمل سابقًا ويعمل حاليًا في جامعة تورنتو وجامعة جورجيا للتكنولوجيا، في مقال بعنوان "Moneyball for Physical AI"، يشبه مسابقة البيانات للذكاء الاصطناعي التجسيدي بلحظة "Moneyball" في تاريخ البيسبول.

ما يريد تحديّه هو سردية تمويلية شائعة بشكل متزايد: أن شركات الروبوتات تستطيع بناء حلقة بيانات دائرية (data flywheel) بمجرد تكديس المزيد من التحكم عن بُعد، والمزيد من النشر الفعلي، والمزيد من ساعات التشغيل. بالنسبة للمستثمرين، هذه ليست معركة أكاديمية كلامية. ففي كثير من الأحيان، يتم تغليف هيكل التكاليف وسرعة التسويق وحواجز النماذج لشركات الذكاء الاصطناعي التجسيدي في هذه الكلمات الأربع: "حلقة البيانات المغلقة". إذا كانت ساعات التشغيل التراكمية لا تساوي تقدمًا فعالًا في النموذج، فإن السوق بحاجة إلى إعادة النظر في أصول البيانات لهذه الشركات.

"ساعات البيانات" قد تكون خرافة معدل الضرب في صناعة الروبوتات

استعار غارغ القياس الكلاسيكي من "Moneyball". في عام 2002، فاز فريق أوكلاند أثليتكس بـ 103 مباراة مع تشكيلة من بين الأدنى أجرًا في الدوري، ولم يكن المفتاح شراء لاعبين أغلى، بل اكتشاف أن السوق قللت من قيمة اللاعبين. يركز الكشافة التقليديون على معدل الضرب، وسرعة القواعد، والوضعية، ولكن المؤشر الذي يفسر قدرة الفريق على تسجيل النقاط بشكل أفضل هو نسبة الوصول إلى القاعدة.

في رأيه، قد يكون الذكاء الاصطناعي الفيزيائي في مرحلة مماثلة. تعترف الصناعة بأن البيانات هي ضرورة للنماذج العامة للروبوتات، ولكن من السهل اعتبار المؤشر الأسهل عرضًا هو المؤشر الأكثر أهمية: ساعات التحكم عن بُعد التراكمية، عدد مسارات التعليم، عدد الروبوتات المنشورة، مدة تشغيل سيناريوهات الإنتاج.

طريقة توفير بيانات الروبوتات وبيانات النصوص ليست متشابهة. يمكن لنماذج اللغة الكبيرة الحصول على كميات هائلة من البيانات النصية منخفضة التكلفة من الإنترنت، ومكتبات الأكواد، والكتب، وصفحات الويب، وغالبًا ما يكون عنق الزجاجة من القوة الحاسوبية وأعمال التنظيف وكفاءة التدريب. تحتاج نماذج الروبوتات إلى بيانات تحتوي على تفاعل فيزيائي، وردود فعل حركية، وتغيرات بيئية، ويجب إنشاء كل ساعة من البيانات الفعالة بشكل حقيقي، خلفها تكاليف المعدات، والعمالة، والمساحة، وأجهزة الاستشعار، ومعالجة الفشل، والأمان.

استخدم عالم الروبوتات كين غولدبرغ مصطلح "فجوة بيانات مدتها 100,000 عام" لوصف الفجوة بين بيانات الروبوتات وبيانات الذكاء الاصطناعي على نطاق الإنترنت. بشكل أكثر دقة، إذا قمنا بتحويل كمية النصوص والصور التي تستهلكها نماذج الرؤية واللغة الكبيرة الحديثة أثناء التدريب إلى وقت قراءة أو مشاهدة بشرية، فإنها تعادل حوالي 100,000 عام، بينما تفتقر الروبوتات إلى بيانات تفاعل حقيقية بهذا الحجم. هذا القول لا يضع عتبة دقيقة لنماذج الروبوتات، بل يذكر الصناعة بأن بيانات التفاعل في العالم الحقيقي لا يمكن استرجاعها بتكلفة منخفضة مثل نصوص الويب.

هذا هو أيضًا سبب معارضة غارغ لسردية "التحكم عن بُعد على طريقة المصانع المستغلة للعمال". يمكن أن يؤدي التحكم اليدوي عن بُعد بكميات كبيرة إلى إنتاج عينات تدريب كثيفة الحركة، ولكن إذا قامت الشركة فقط بتقييم البيانات بناءً على إجمالي ساعات العمل، فقد يتدفق التمويل إلى عينات متكررة ومنخفضة الصعوبة ومنخفضة كثافة المعلومات، بدلاً من السيناريوهات التي تقلل معدلات الفشل بشكل أكبر.

الأنواع الثلاثة من البيانات تشتري أشياء مختلفة

في تصنيف غارغ، تنقسم بيانات الذكاء الاصطناعي الفيزيائي تقريبًا إلى ثلاثة أنواع: بيانات المراقبة، وبيانات التدخل، وبيانات النشر. كلها قد تكون مفيدة، لكن التكاليف والقيود وكثافة المعلومات تختلف بشكل كبير.

النوع الأول هو بيانات المراقبة، مثل فيديوهات الشخص الأول أو الشخص الثالث. ميزتها هي التكلفة المنخفضة والتغطية الواسعة، مما يساعد النموذج على فهم الأشياء والمسافات ونتائج الحركات وتوزيع البيئة. القصور واضح أيضًا: يمكن للنموذج رؤية ما يحدث للشخص أو الشيء، لكنه لا يعرف بالضرورة ما هو الحركة التي يجب أن ينتجها الروبوت في حالة معينة.

النوع الثاني هو بيانات التدخل، وهي مسارات الحالة إلى الحركة الناتجة عن التحكم عن بُعد والتعليم والتدخل البشري. هذا النوع من البيانات أكثر مباشرة لتدريب الروبوتات لأنه يحتوي على سلسلة "يرى ماذا، كيف يتحرك، ماذا يحدث بعد الحركة". الثمن هو أن كل مسار عالي الجودة يكلف مالًا، وتكاليف العمالة والمعدات يصعب أن تنخفض بسرعة مثل بيانات البرامج.

النوع الثالث هو بيانات النشر، وهي البيانات عن بُعد التي ينتجها الروبوت أثناء تشغيله في السيناريوهات التجارية الحقيقية. يبدو هذا الأقرب إلى الحلقة الدائرية التجارية: الروبوت يعمل ويكسب المال وينتج بيانات تدريب في نفس الوقت. لكن هنا يوجد فخ إحصائي.

السيناريوهات التي يتم فيها نشر الروبوتات أولاً اليوم هي عادةً الأقل تغيرًا، والأكثر تثبيتًا للعمليات، والأكثر تحكمًا في المخاطر، مثل المستودعات عالية التنظيم أو المصانع أو بيئات المهام الفردية. قد تكون كمية بيانات الإنتاج هذه كبيرة، لكن توزيعها ضيق وتكرارها عالٍ. بمجرد أن يتعلم النموذج القوانين المحلية، ستنخفض المعلومات الجديدة التي تجلبها كل ساعة تشغيل إضافية تدريجيًا.

بيانات النشر ليست عديمة القيمة. ما هو ذو قيمة حقيقية غالبًا ليس الأجزاء العادية لـ "إكمال المهمة بنجاح" بكميات كبيرة، بل الفشل، والتعطل، والأشياء غير الطبيعية، والظروف الحدودية، والاضطرابات النادرة. المشكلة هي أن هذه العينات طويلة الذيل لا تظهر بشكل منتظم بالوتيرة التي ترغب بها الشركة، وتكاليف اكتشافها وفرزها ومراجعتها أعلى أيضًا.

البيانات الأكثر مفيدة، لكن العينات المتكررة تصبح باهظة الثمن بسرعة

غارغ حذر في استعارة قانون القياس (scaling law) لنماذج اللغة: زيادة البيانات عادة ما تؤدي إلى انخفاض خسارة النموذج، ولكن العائدات تتناقص. إذا كانت العينات متكررة أو شبه متكررة أو من توزيع ضيق نفسه، فإن مساعدة البيانات الجديدة تصبح أصغر بشكل أسرع.

بترجمة هذا إلى مجال الروبوتات، المشكلة أكثر وضوحًا. عندما يتعلم روبوت التقاط صندوق تغليف ثابت من رف ثابت، قد تكون آلاف المرات الأولى من التعليم، الفشل، والتصحيح ذات قيمة كبيرة. بمجرد أن يتم جمع الحركات والأشياء والإضاءة والمسارات بشكل متكرر، تصبح البيانات الجديدة أشبه بنسخ الخبرات المحلية التي تم تعلمها بالفعل.

هناك تجارب مماثلة في تدريب نماذج اللغة: العينات المتكررة وشبه المتكررة تهدر ميزانية التدريب، والتكرار المفرط قد يضر بالتعميم. غارغ لا يطبق هذه الاستنتاجات مباشرة على تدريب الروبوتات، بل يستخدمها للإشارة إلى اتجاه: قياس قيمة البيانات لا يمكن أن ينظر فقط إلى الكمية، بل أيضًا إلى مدى الاختلاف بين العينات.

بالنسبة للذكاء الاصطناعي الفيزيائي، للتنوع معنيان على الأقل. الأول هو جعل النموذج يرى المزيد من الأشياء، والمساحات، والمواد، والإضاءة، والعراقيل، وطرق التشغيل. الثاني هو تجنب أن يكون النموذج جيدًا جدًا في توزيع مهام بسيط جدًا، ثم يفشل عند الانتقال إلى سيناريوهات مختلفة قليلاً.

لذلك تصبح حالات الفشل طويلة الذيل حاسمة. العالم المادي الحقيقي ليس موزعًا بشكل موحد، وغالبًا ما تحدد الحالات الشاذة منخفضة التردد قابلية الاستخدام التجاري: إزاحة طفيفة في وضع الجسم، تشوه في التغليف، انعكاس على السطح، انزلاق في القابض، تدخل بشري مفاجئ، خطأ في استشعار المستشعر، تغير في احتكاك الأرضية. بغض النظر عن مدى جودة أداء النموذج على العينات العادية، إذا لم يتمكن من التعامل مع هذه الأحداث الذيلية، فإن النشر سيظل مقيدًا بقلة الفشل.

حلقة النشر الدائرية تعمل فقط إذا كانت السيناريوهات المبكرة "جديدة" بما يكفي

ما يتحداه هذا المقال حقًا هو مسار التسويق الشائع لشركات الذكاء الاصطناعي التجسيدي: نشر الروبوتات أولاً في سيناريوهات ضيقة، واستخدام التحكم البشري عن بُعد لضمان قابلية الاستخدام، وجمع بيانات الإنتاج في نفس الوقت، ثم استخدام هذه البيانات لتدريب نماذج أقوى، لفتح المزيد من السيناريوهات.

يطلق غارغ على هذا المسار اسم "neo-integrator" (المتكامل الجديد). يحاول تجاوز تكلفة جمع البيانات الخالصة، ووضع الروبوتات في الإنتاج التجاري، بحيث تعوض إيرادات التشغيل تكاليف البيانات. مقارنة ببناء مصانع تحكم عن بُعد مخصصة، يبدو هذا المسار أكثر كفاءة.

لكن هناك شرط مسبق لنجاح الحلقة الدائرية: يجب أن تكون البيانات الناتجة عن السيناريوهات التجارية المبكرة جديدة بما يكفي ومتنوعة بما يكفي لمساعدة النموذج على الانتقال إلى المزيد من المهام. إذا كان سيناريو النشر مجرد مهمة ضيقة ذات تغير منخفض، وإنتروبيا منخفضة، وهندسة مخصصة بقوة، فإن البيانات ستشبع بسرعة. ما قد تحصل عليه الشركة ليس حلقة دائرية للقدرات العامة، بل مجموعة من المشاريع المخصصة التي تتطلب تكاملًا مستمرًا وصيانة ومعالجة حالات شاذة.

يجلب هذا نوعين من التكاليف. أولاً، كلما دخلت في سيناريو جديد، يجب استثمار تعديل البيئة، وتكييف العملية، وشبكة أمان للفشل، وآليات السلامة. ثانيًا، إذا كان النشر نفسه لم يصل بعد إلى نقطة التعادل، فإن توسيع النطاق لا يعني بالضرورة جمع البيانات بتكلفة منخفضة، بل قد يكون استخدام الخسائر لشراء كميات كبيرة من العينات منخفضة الجدة.

لذا، النشر المبكر ليس عديم الفائدة، بل يحتاج إلى نظرة أدق: كم من تغطية المهام الجديدة جلب، وكم من عينات الفشل والشذوذ أنتج، وهل يمكن نقل هذه العينات إلى سيناريوهات أخرى، وبعد خصم تكاليف الأجهزة والعمالة والصيانة والتكامل، كم تحسن النموذج يشتريه كل دولار.

سردية التقييم لا يمكن أن تسأل فقط عن عدد الساعات المتراكمة

نصيحة غارغ ليست التوقف عن جمع البيانات، بل استبدال معايير التقييم. يمكن استخدام ساعات التشغيل التراكمية، وساعات التحكم عن بُعد، وعدد المسارات كمؤشرات تشغيلية، لكن لا ينبغي مساواتها مباشرة بتقدم النموذج.

الأسئلة ذات القوة التفسيرية الأكبر تشمل: متى تشبع بيانات مهمة واحدة، وما هي تكلفة الهندسة المتكاملة لإضافة مهمة جديدة، وكم عدد السيناريوهات وعناقيد الحركة المختلفة التي تغطيها البيانات، وكم عدد عينات الانجراف التوزيعي الحقيقية والشذوذ في بيانات الإنتاج، وكم عدد الأجزاء الناجحة العادية التي يجب تصفيتها بدلاً من إطعامها للنموذج باستمرار.

بالنسبة إلى الأنواع الثلاثة من البيانات، سيكون توزيع رأس المال مختلفًا أيضًا. يجب أن تسعى بيانات المراقبة أولاً إلى التكلفة المنخفضة والتنوع والتغطية الواسعة، لتوسيع حدود القدرات الأساسية. بعد الوصول إلى تشبع مهمة واحدة لبيانات التحكم عن بُعد والتعليم عالية التكلفة، يجب نقل الميزانية إلى المزيد من المهام، بدلاً من الاستمرار في تكرار نفس الحركات. بالنسبة لبيانات النشر، يجب التركيز على تصفية الفشل والظروف الحدودية والعينات خارج التوزيع، وتجاهل الكثير من سجلات التشغيل العادية ذات كثافة المعلومات المنخفضة.

لهذه الأفكار تأثير واقعي على سردية تقييم الذكاء الاصطناعي الفيزيائي. امتلاك شركة لمزيد من الروبوتات ووقت تشغيل أطول وفريق تحكم عن بُعد أكبر لا يعني تلقائيًا امتلاك حاجز نموذج أقوى. القدرة الأصعب في النسخ قد تكون العثور المستمر على بيانات طويلة الذيل عالية القيمة، والحكم على وقت تشبع نوع معين من البيانات، وتغطية توزيعات المهام الأكثر بتكلفة أقل.

ومع ذلك، لا تزال هذه مجرد زاوية لتوزيع رأس المال، وليست استنتاجًا صناعيًا نهائيًا. ما إذا كانت نماذج الروبوتات ستظهر عوائد حجمية مماثلة لنماذج اللغة، وما إذا كانت بيانات النشر يمكن أن تستمر في إنتاج معلومات جديدة في بعض السيناريوهات عالية الأبعاد، ومدى كفاءة الانتقال بين المهام المختلفة، كل هذه الأسئلة تحتاج إلى إجابات تجريبية أكثر.

تذكير غارغ يقع على سؤال أكثر تحديدًا: "مؤشر Moneyball" للذكاء الاصطناعي الفيزيائي قد لا يكون ساعات البيانات، بل عدد العينات الجديدة لكل دولار. بالنسبة لشركات الروبوتات التي لا تزال تروي قصصًا عن حلقة البيانات الدائرية، ما سينظر إليه السوق في النهاية قد لا يكون طول وقت التشغيل التراكمي، بل مقدار المعلومات الجديدة التي تم إنتاجها خلال هذا الوقت.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت