سيتم تحقيق قفزات سريعة في نموذج العالم هذا العام! قد يشهد القيادة الذاتية نقطة تحول في السوق

LightningPacketLoss · 2026-03-30T17:00:10+00:00

في منتدى Zhongguancun لعام 2026، أشار Zhu Jun إلى أنه تحت دعم الهيكل الموحد ونظام البيانات، ستتقدم النماذج العالمية بسرعة. وأكد أن تعريف النماذج العالمية الحالي غامض، ويحتاج إلى توضيح الفروق بين تطبيقاتها الرقمية والمادية، خاصة في مجال الروبوتات ومتطلبات التدريب المسبق. تركز الاختراقات التقنية المستقبلية على القدرة على التفاعل في الوقت الحقيقي والتعلم عبر الإنترنت، مع التطلع إلى دعم المزيد من التطبيقات الذكية.

LightningPacketLoss

2026-03-30 17:00:10

إنشاء الملخص قيد التقدم

“مع الدفع المشترك نحو بنية موحّدة ونظام بيانات ودعم من قوة الحوسبة، سيشهد نموذج العالم قفزة سريعة هذا العام!”

في المنتدى الخاص “منتدى مستقبل الذكاء الاصطناعي: القفز·الاستثمار·التعايش” ضمن المؤتمر السنوي لمنتدى بكين تشونغ قوان شونغ نيان 2026، الذي أُقيم في 29 مارس، طرح المؤسس والرئيس التنفيذي لشركة Shengshu للعلوم والتكنولوجيا ورئيس معهد أبحاث الذكاء الاصطناعي في جامعة تسينغهوا ونائب مديره، تشو جون، وجهة النظر أعلاه.

كيفية البناء

وفي الوقت نفسه، يتم توسيع تعريف “نموذج العالم” ويصبح أكثر ضبابية. “لا بد من توضيح تعريف ‘نموذج العالم’ بشكل أكبر.” قال تشو جون، إن كثيرًا من الأبحاث الحالية غير مكتملة. على سبيل المثال، ما تزال بعض طرق توليد الفيديو التفاعلي، من حيث الجوهر، محصورة في إعادة بناء الفضاء الرقمي، ويُستخدم ذلك أساسًا للتفاعل أحادي الاتجاه بين الإنسان والنظام، دون امتلاك القدرة على تعلم وتنفيذ حركات في بيئات واقعية.

يقسم “نموذج العالم” المؤسس في فضاء المنوعات وو وي إلى فئتين: فئة هي نموذج العالم في العالم الرقمي، ويتركّز بالأساس على بناء واجهات تفاعلية أكثر آنية؛ وفئة هي نموذج العالم في العالم الفيزيائي، ليصبح الدماغ الآلي القابل للتنبؤ. “إن القدرات الداعمة لهذين النوعين من نماذج العالم ليست متطابقة؛ ففي العالم الرقمي يجب أن تلبي تفضيلات المبدعين أكثر، بينما في العالم الفيزيائي ينبغي نسخ الفيزياء الحقيقية وعمليات الروبوت.”

خذ القيادة الذاتية والذكاء المتموضع كأمثلة. ففي القيادة الذاتية، تُلتقط بيانات من مركبات حقيقية لتحقيق حلقة بيانات؛ بينما يواجه الروبوت مشكلة بدء البيانات من الصفر. حلّل وو وي أن كثيرًا من الشركات تميل إلى نشر الروبوتات بأسلوب مشابه للقيادة الذاتية، أي إجراء التحكم عن بُعد لاستكشاف البيانات في البيئة الحقيقية. ورغم أن جودة البيانات مرتفعة جدًا، توجد مشكلة تتمثل في أن أداء النموذج يزداد بمعدل يعتمد على نمو حجم المعلمات أو حجم الاستثمار في قوة الحوسبة. “وبالنسبة لتدريب نموذج العالم، فإن القيام بتدريب مسبق باستخدام بيانات من منظور الشخص الأول يمكن أن يحل هذه المشكلة.”

انطلاقًا من خبرات الشركات، قال شو هو زهي، مؤسس شركة Po’po’ko Robotics، وأستاذ مساعد في معهد تسينغهوا للدراسات متعددة التخصصات للمعلومات: عند إجراء جمع البيانات في 100 أسرة، لا يمكن تعميمها على 10000 أسرة. يحتاج التدريب المسبق للروبوتات إلى القيام بتدريب مسبق باستخدام فيديو من منظور الشخص الأول، بما يوفر معنى حقيقيًا للتعميم. وعلى نحو محدد، أولًا يتم تحديد ما الذي ينبغي القيام به وما الذي لا ينبغي القيام به، ثم تُجرى تكرارات عكسية للنظام، بما في ذلك العتاد والتحكم في الحركة وما إلى ذلك. على سبيل المثال، لا يمكن ليد روبوت Po’po’ko أن تحقق 21 درجة من الحرية، لكن يمكنها أن تعمم إنجاز 10 أشياء، ثم الانتظار حتى يأتي التحديث.

اقترح تشو جون “إطار نموذج العالم الموحد”، بحيث يتم توحيد التوليد عبر الأنماط (cross-modal) ومهام التنفيذ في النظرية. هذا التوحيد ليس مجرد تركيب هندسي، بل هو توحيد على مستوى البنية. ومن منظور أكثر شمولًا، سواء في العالم الرقمي أو في العالم الفيزيائي، فسيُشكَّل في النهاية من عملاء (Agents) بأشكال مختلفة. فالوكلاء في العالم الفيزيائي لديهم “جسد”، بينما يكون نموذج العالم هو مركزه الأساسي لـ"الذكاء".

يمكن إرجاع بناء نموذج عالم عام إلى مبادئ نماذج اللغات الكبيرة من الدرجة الأولى: بنية قابلة للتوسّع، وبيانات ضخمة الحجم، وقوة حوسبة كافية. يعتقد تشو جون أن نموذج العالم ينبغي أن يستخدم بنية موحدة، بينما غالبًا ما تكون الطرق السائدة حاليًا نمطية/وحدوية ومجزأة؛ فبعضها يركز على ملاءمة مسارات الأفعال، وبعضها يميل إلى التنبؤ، وبعضها يتعلم مباشرة سياسات التحكم.

اختراقات تقنية

عند الحديث عن إمكانات تقنية نموذج العالم، قال تشانغ مينغشينغ، أستاذ مساعد في جامعة تسينغهوا، إن كثيرًا من مسارات نموذج العالم مبنية على قدرات نموذج لغوي، ثم تتم نقلها إلى مزيد من الأنماط. ومع ذلك، هل تكفي اللغة لنمذجة العالم الفيزيائي؟ أم نحتاج إلى لغة فضاء ضحل أخرى؟ توجد خلافات نظرية حول هذا حاليًا. علاوة على ذلك، هل نحقق “الاستشعار عن بُعد للفيزياء” عبر التدريب بالبيانات أم عبر الفضاء الفيزيائي؟ أم أن الأمر يتعلق ببيانات المنظور الأول؟ إن نمط الفضاء الفيزيائي والتنفيذ ما يزالان بحاجة إلى اختراق.

وبشكل محدد، يجب أن يركز نموذج العالم لعام 2026 على اختراقين تقنيين رئيسيين. قال وو وي إن الأول هو القدرة على التحكم التفاعلي بشكل لحظي، والثاني هو التدريب اللاحق لنموذج العالم. “خاصة التعلم المعزز والتعلم عبر الإنترنت”؛ وقد شرح شو هو زهي ذلك بالتفصيل، بحيث يتم توسيع التعلم المعزز إلى مئة وألف وعشرة آلاف روبوت، وتحقيق سرعة شبيهة بسرعة الإنسان دون فقدان معدل النجاح؛ بالإضافة إلى ذلك، جعل الذكاء المتموضع قادرًا أيضًا على تعلم سريع عبر الإنترنت لمهام غريبة بعد النشر.

وبالاستناد إلى التراكم الطويل في نماذج الفيديو الكبيرة، اقترح تشو جون مسارًا تقنيًا أكثر وضوحًا: في الطبقة السفلية، يكون Diffusion Transformer (U-ViT) بمثابة قاعدة بنية موحدة؛ وفي فك التشفير على مستوى فضاء البكسلات، الموافق لنموذج توليد الفيديو Vidu، لخدمة إنشاء المحتوى الرقمي؛ وفي فك التشفير على مستوى فضاء الحركة، لخدمة التفاعل المتموضع في العالم الفيزيائي. وهذا يعني أن النموذج الأساسي نفسه يمكنه دعم قدرات التوليد في العالم الرقمي وقدرات التنفيذ/الحركة في العالم الفيزيائي في الوقت ذاته.

بحسب ما ورد، تحققت شركة Shengshu للعلوم والتكنولوجيا من قدراتها في سيناريوهات متعددة المهام. على سبيل المثال: مهمة تشغيل/تفاعل مع رمز التحقق — عبر محاكاة الذراع الآلية لعمليات الإنسان للماوس، لتحقيق التعرّف على الشاشة والنقر الدقيق؛ مهمة اتخاذ القرار في الألعاب اللوحية — تتضمن تخطيطًا بعيد المدى واستدلالًا متعدد الخطوات، وتحتاج إلى تنسيق الإدراك والتنبؤ واتخاذ القرار؛ مهمة تشغيل أجسام مرنة — في مواجهة أجسام معقدة وغير منتظمة، لتحقيق إمساك ثابت.

يؤدي الإطار الموحد إلى مسار تطور جديد. ومن خلال الملاحظة التجريبية، ذكر تشو جون ظاهرتين أساسيتين: أولًا، مقارنة بمسار Vision-Language-Action التقليدي (VLA، الرؤية-اللغة-الأفعال)، فإن كفاءة استخدام البيانات تتحسن بمقدار على مستوى واحد؛ وثانيًا، تزداد قدرة التعميم في المهام المتعددة، ويمكن للنموذج الموحد تحقيق تعميم فعال على أكثر من 50 مهمة، مع عدم انخفاض الأداء بل ارتفاعه. بالمقابل، فإن نماذج VLA التقليدية (مثل PI0.5) ستنخفض فيها الأداء بشكل واضح عند زيادة عدد المهام.

على مستوى التطبيق، ستشهد مسارات القيادة الذاتية والسيناريوهات الصناعية العمودية، في 2026، نقطة انعطاف نحو التسليع وجذب رأس المال. قال باي زونغيي، الشريك المؤسس في شركة YaoTu Capital، بصراحة إنه يتطلع إلى فرص جديدة في عصر الذكاء المتموضع — مسار الخدمات اللوجستية الطرفية. ويرى إيفو موث، نائب الرئيس التنفيذي للبحث والتطوير لدى Audi China، أنه فيما يتعلق بالذكاء المكاني ونموذج العالم، فإن التغيير الأكثر جوهرية في المستقبل — إلى جانب تحسين سلامة القيادة — سينعكس أيضًا في الإدراك السياقي وراحة الركوب.

(التحرير: ونغ مينغ)

الكلمات المفتاحية:

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.