متحاور متغيرات رئيسية المدير التقني وانغ هاو: لماذا تعتبر الأسرة هي "الكأس المقدسة" للذكاء المجسد؟

SadMoneyMeow

2026-04-03 17:58:48

作者 ديل

المحرر دونغ يوتشينغ

“العائلة حقًا هي الكأس المقدسة للذكاء المتجسد.” في صباح يوم 30 مارس 2026، وفي معهد شينتشينغ لى يى (Shenzhen Lingyi Academy)، قدم وانغ هاو، المؤسس المشارك ورئيس التكنولوجيا للروبوتات الذاتية (Zivariable) ورئيس التكنولوجيا (CTO)، هذا الحكم في مقابلة شملت منصة Phoenix Net Technology وغيرها. وفي ذلك التوقيت، كانت الدورة الأولى لمؤتمر مطوري الذكاء المتجسد (EAIDC 2026) جارية؛ وكانت 20 فريقًا من أبرز الفرق التي تأهلت إلى النهائي قد اجتمعت هنا، إذ لا يملك المشاركون سوى ثلاثة أيام لإكمال العملية الشاملة من جمع البيانات من الصفر، وتدريب النماذج، إلى نشرها على الروبوت الحقيقي.

في عام 2026، الذي يختار فيه معظم المنافسين بحلول أولوية الاستحواذ على طلبات سيناريوهات صناعية، اختار المتغير مسارًا أكثر مغامرة. ففي شهر مارس من هذا العام، أعلن المتغير أنه تعاون مع 58 تونغ تشنغ (58同城)، حيث يقوم نظام 58 إلى البيت (58 إلى 家) بتوزيع مساعدات وعملاء روبوت عشوائيًا لتشكيل أزواج عمل، لتنفيذ خدمات مجالسة منزلية، وقد بدأ تشغيل تجريبي في شنتشن. فالعائلة—وهي السيناريو الأقل معيارية والأكثر انفتاحًا بيئيًا—تتحول تدريجيًا إلى ساحة المعركة الرئيسية في ذهن المتغير، “الطريق إلى الروبوتات العامة”.

01 مسابقة تعيد الروبوت إلى العالم الحقيقي

صُممت لوائح EAIDC 2026 بذكاء وفيها كثير من الدلالات. تستخدم جميع الفرق المشاركة نفس منصة الأجهزة. وخلال ثلاثة أيام فقط، من حالة أول تواصل مع نموذج الأساس للذكاء المتجسد وتصحيح إعدادات الروبوت الحقيقي، يتم إنجاز العملية الكاملة من جمع البيانات إلى نشر الروبوت الحقيقي. عادةً، يستغرق مختبر بحثي احترافي إتمام بناء مشابه لمدة لا تقل عن 6 أشهر.

بحسب ملاحظة وانغ هاو، ظهر تباين واضح منذ بعد ظهر اليوم الأول لانطلاق المسابقة. “افتتحنا المعسكر بعد ظهر اليوم الأول، وفي المساء كان بعض المشاركين ما يزالون يضبطون البيئة، بينما كان بعضهم الآخر قد حقق نتائج، وهذا فرق كبير.” لاحقًا اكتشف أن الفرق التي تُجري تقييمات بشكل متكرر وتراقب البيانات والأجهزة بعناية، كانت أكثر بروزًا مقارنة بالفرق التي لا تتدخل يدويًا. “الذكاء المتجسد هو تعلم تفاعلي؛ أي أن الآلة تجد المشكلات أثناء الاختبار، وكذلك أثناء مراقبة الإنسان لها. كلما زادت إمكانية العثور على حلول لتعقيدات العالم الفيزيائي الحقيقي.”

وفي وقت لاحق، روى أحد المشاركين أن معدل نجاحهم عند مواجهة مهمة “وضع الحلقة فوق عمود” في البداية لم يكن سوى 20% إلى 30%، ثم مع استمرار التكرار والتحسين، ارتفع تدريجيًا إلى 60% إلى 70%.

كما تم إعداد ترتيب A وترتيب B—ترتيب A تكون بيئته قابلة للتحكم، لتمكين الفرق من التحقق بسرعة من قدرات النموذج؛ أما ترتيب B فهو صندوق أسود بالكامل، ويمتحن تعميم النموذج تحت تغيّرات مثل الإضاءة والخلفية وتغيّر كائن التعامل ومكان التعامل. قال وانغ هاو إن هذا هو الدافع وراء إعدادهم للمسابقة: “الهدف هو أن تجعل هذه المسابقة مشروع المصادر المفتوحة بأكمله أقل تعقيدًا من حيث متطلبات الدخول على المطورين، وأن تُنشئ واجهة أكثر عمومية ومعيارية نسبيًا”.

في صناعة الذكاء المتجسد التي تعتمد على التقييمات المحاكاة لفترة طويلة، يمكن للبيئة المحاكاة تسريع التكرار، لكنها لا تستطيع إعادة إنتاج تعقيدات العالم الحقيقي. لذا يبقى فرق sim2real (أي أسلوب نقل التقنيات من البيئة الافتراضية إلى العالم الحقيقي) قائمًا دائمًا. اعترف وانغ هاو: “إن الاعتماد الطويل على تقييمات المحاكاة يخفي بشكل لا مفر منه الحدود الحقيقية لقدرات النموذج”. ومن خلال هذا “ساحة تدريب على الروبوت الحقيقي” من EAIDC، حاولوا سحب التقييم والتدريب وجمع البيانات مرة أخرى إلى عالم واقعي واحد.

02 قصة جديدة شاملة من النهاية إلى النهاية؟

منذ البداية، اختار المتغير مسار “نموذج نهاية-إلى-نهاية للدماغ الكبير والدماغ الصغير الموحد”. ومن الناحية المعمارية التقنية، تحاول الفرق دمج نموذج العالم (World Model) مع نموذج VLA (الرؤية-اللغة-الحركة) ضمن إطار موحد.

شرح وانغ هاو المنطق الأساسي لهذا المسار. “لا يزال يتعين استخدام نموذج اللغة الكبير كقاعدة تدريب، لكننا نريد نقل اللغة والحركة إلى مساحة واحدة، بدلًا من جعل كل الرؤية تخدم اللغة كما كان في السابق. المعلومات التي تقدمها اللغة واسعة جدًا على المستوى الإجرائي، بينما تحدث التفاعلات في العالم الفيزيائي على مقاييس سنتيمترية وثانية. وبين الاثنين فجوة معلوماتية هائلة. إذا استطعنا اعتماد طريقة متعددة الوسائط أصلية، يمكن للحركة أن تُظهر أداءً واضحًا جدًا على المستويين الماكرو والميكرو؛ وهذا يمكنه تحويل الرؤية من مراقبة ساكنة في السابق إلى جعل الفهم البصري يشمل الحركة.”

وهذا يتعارض مع التصميم التبسيطي لكثير من نماذج VLA الحالية. أشار بعض المراقبين في الصناعة إلى أن العديد من النماذج المتجسدة تميل إلى التبسيط، وما يزال معظم نماذج VLA تعتمد على إدخال صورة مفردة (لقطة واحدة).

يرى وانغ هاو أن أكبر تحدٍ للنماذج الشاملة نهاية-إلى-نهاية يكمن في تعقيد التدريب ومتطلبات الحجم. “إذا لم تتوفر هاتان الشرطين، فقد لا تحقق النماذج الشاملة نهاية-إلى-نهاية تأثيرًا أفضل من نماذج متخصصة صغيرة أو نماذج طبقية. تعني النهاية-إلى-النهاية أنه يجب أن يكون هناك أثر الحجم؛ يجب رفع كمية البيانات ومعلمات النموذج. بالإضافة إلى ذلك، تقييم الذكاء المتجسد أكثر تعقيدًا من تقييم نماذج اللغة الكبيرة. يمكن لنموذج اللغة الكبيرة أن يَعرض منحنى الـloss، لكن هذا غالبًا ليس الحال في الذكاء المتجسد؛ فالـloss لا يعكس أداءك في العالم الحقيقي، لأن العالم الحقيقي نظام مغلق.”

تتمثل إحدى الاستراتيجيات الأساسية الأخرى للمتغير في الاستمرار في جمع بيانات الروبوت الحقيقي في العالم الواقعي. قال وانغ هاو: “في جميع أساليب التعلم التفاعلي والتعلم التعزيزي، فإن أهم البيانات تأتي من الروبوت الحقيقي. ولن يتوقف جمع البيانات؛ بل سنواصل القيام بذلك.” لكنه كشف أيضًا أنه في عام 2026 سيحدث تغيير كبير—“سيعتمد الأمر بشكل متزايد على أسلوب جمع البيانات عبر ارتداء الإنسان لها أو عبر Ego-Centric”.

يعد بناء حلقة البيانات المغلقة (Data Closed Loop) أيضًا قضية محورية أخرى لدى المتغير. قال وانغ هاو: “لنُشغِّل الحلقة مبكرًا بأسلوب التعاون بين الإنسان والآلة. أولًا، نستخدم بيانات عالية الجودة وتدريبًا واسع النطاق لبناء نموذج أساس. صحيح أنه لا يستطيع حل كل المهام، لكن ينبغي وضعه في بيئة حقيقية لبدء العمل. إذا كان هناك ما لا ينجح، فسيتولى الإنسان المسؤولية ويُساعده على التعافي من الأخطاء؛ وستصبح هذه البيانات أيضًا مصدرًا ثمينًا للغاية.” وهو يصف نظامًا يتم فيه إنجاز التقييم والتدريب وجمع البيانات ضمن عملية واحدة.

03 لماذا العائلة؟

في الواقع، يتوقع العاملون في الصناعة عمومًا أن تطبيقات سيناريو العائلة الناضجة تحتاج إلى الانتظار من 5 إلى 10 سنوات. وتميل معظم الشركات المصنعة في التوجه التجاري إلى سيناريوهات صناعية—بيئة يمكن التحكم فيها، مهام أكثر محدودية، وROI يمكن حسابه. في أوائل 2026، ظهرت مجموعة من شركات الروبوت ذات تقييمات بمئات المليارات. لكن في اتجاه خدمات العائلة، لا يوجد حتى الآن لاعب ناضج حقيقي بالمعنى الفعلي.

قدّم وانغ هاو منظورًا مختلفًا لحل الإشكال: “العائلة تمثل أكثر بيئة انفتاحًا وأوسع مجموعة من المهام. فإذا حلت مهام العائلة، فهذا يعني أن النموذج يمكنه تحقيق تعميم كامل. لا يمكن تحسين مستوى ذكاء النموذج إلا بمواجهة السيناريو الأكثر تعقيدًا منذ البداية. بغض النظر عن متى نبدأ، فكلما بدأنا أبكر كان أفضل، وهذا هو الأهم.”

ومع ذلك، توجد بعض الصعوبات الرئيسية لدخول مجال العائلة. أولًا: قدرة التعميم من دون بيانات (صفرية اللقطات)—يجب أن يستكشف النموذج مسار النجاح عبر الاستدلال، وليس أن يعتمد على تدريب مسبق. “في البداية لا توجد فرص كثيرة لتدريب النموذج لدخول العائلة. في هذا الوقت نحتاج إلى تنشيط قدرة الاستدلال لدى النموذج، بحيث يستكشف أمثلة نجاح عبر الاستدلال داخل سيناريو العائلة.” ثانيًا: دقة العمليات طويلة المدى. “اليوم، عندما يدخل نموذج الأساس إلى العائلة، توجد نزعة لإتمام المهام أو نوايا حركية في مهام عديدة—مثل الاتجاه إلى محاولة التمدد على أي جسم والقبض عليه—لكن الدقة غير كافية، ما يؤدي إلى فشل تراكم الأخطاء عند تنفيذ مهام معقدة وطويلة المدى.”

قدم وانغ هاو أن حل مشكلة دقة العمليات طويلة المدى يعتمد على نقطتين. الأولى: تنشيط قدرة الاستدلال لدى النموذج. “اجعل اللغة تُجري الاستدلال بالاقتران مع الرؤية؛ بحيث تتشكل سلسلة تفكير تضم اللغة والرؤية والحركة على مستوى واحد، فيخطط الروبوت لنفسه ويتأمل.” والثانية: إجراء تعلم تعزيزي في ظل وجود نمط واسع النطاق من البيانات الحقيقية للروبوت. “الاستمرار في الوصول إلى دقة أعلى ضمن معايير نموذج الأساس.”

توقع وانغ هاو أنه “يمكن لمهام عادية مثل التنظيف البسيط والتخزين أن تحقق استقلالًا كاملًا خلال 1 إلى 2 سنة. لكن تحقيق حلقة مغلقة في كل مهام المنزل قد يستغرق وقتًا أطول قليلًا.”

وهذا يتناغم مع تصريحات الرئيس التنفيذي للمتغير، وانغ تشيان. ذكر وانغ تشيان في مقابلة أنه يمكن رؤية الروبوتات تحقق ترسيخًا تجاريًا بطريقة ROI إيجابية خلال هذا العام. لكن وتيرة تقدم سيناريو العائلة واضحة أنها أبطأ، لكنها أيضًا أكثر امتدادًا على المدى البعيد.

بالعودة إلى الجدل الذي يهتم به قطاع الذكاء المتجسد حاليًا أكثر من غيره: ما هو الأهم—اختيار المسار التقني أم التسريع نحو التوسع التجاري؟

"في موضوع الذكاء المتجسد، فإن سقف الإنجازات التي تتحقق عبر التضحية بالتقنية من أجل التجارة لن يكون مرتفعًا. السقف الحقيقي المرتفع هو التوافق بين التجارة والتقنية، بحيث يدفع التطور التقني تدريجيًا نمو الأعمال. يرى وانغ هاو أن الخط الرئيسي للمتغير هو جعل نموذج الأساس يتكرر للأمام باستمرار: “ولكن هناك نقطة واحدة: لا تنشئ أنظمة نماذج كثيرة جدًا في سيناريوهات عمودية من أجل التطبيق، وتقوم بكثير من التعويضات الهندسية لإتمامه. مثلًا، إذا اكتشفت أن الروبوت لديه نقاط عمياء في الرؤية، فتبني نموذجًا صغيرًا للكشف. على المدى القصير يمكن أن يساعد على تسريع التطبيق، لكن على المدى الطويل قد يضر بتحسين نموذج الأساس.”

يتوافق هذا الإصرار مع منطق اختيار السيناريو لدى المتغير—فأساس أول في اختيار السيناريو هو النظر إلى ما إذا كان يمكنه أن يدعم قدرات نموذج الأساس. “ليس المقصود أن تقوم أولًا بتحقيق تعميم كامل ثم تفكر في السيناريو. العكس تمامًا: السيناريو يساعدك على التكرار، والتكرار يجعل نموذج الأساس أقوى. ثم يعكس نموذج الأساس الأقوى بدوره على التجارة، وبذلك تتشكل حلقة مغلقة كاملة.”

كما كشف أنه في بناء نموذج الأساس، كانت الاستثمارات دائمًا كبيرة. ومنذ اليوم الأول لتأسيس الشركة، تم إجراء استثمار واسع في البيانات وقدرات الحوسبة والبنية التحتية. “بمجرد إنشاء أثر الحجم بشكل كبير، فعندما تستثمر 10 أضعاف الموارد وتحصل على التقدم، ستصبح ظاهرة تجمّع الموارد أكثر وضوحًا؛ وستتجاوز الآخرين في السرعة بفارق يتناسب مع المقاييس. كلما بدأنا أبكر كان لدينا ميزة أكبر؛ وكلما بدأنا لاحقًا أصبح من الصعب إنجاز ذلك.”

(المحرر: ليو جينغ HZ010)

     【إخلاء المسؤولية】 هذا المقال يعبر فقط عن آراء صاحبه، ولا علاقة له بقناة (hexun). ويحافظ موقع Hexun على موقف محايد إزاء التصريحات والأحكام الواردة في المقال، ولا يقدم أي ضمان صريح أو ضمني بشأن دقة أو موثوقية أو اكتمال المحتوى الوارد فيه. يرجى من القراء الاكتفاء به كمرجع فقط، ويتحملون مسؤوليتهم الكاملة بأنفسهم. البريد الإلكتروني: news_center@staff.hexun.com

إبلاغ

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.