رهان جماعي من أفضل أموال وادي السيليكون! شرح مفصل بعشرة آلاف كلمة من مورغان ستانلي حول الحدود التالية للذكاء الاصطناعي — "نموذج العالم"

SnapshotLaborer · 2026-03-23T06:09:43+00:00

نماذج اللغة الكبيرة قد وصلت اليوم إلى حدود واضحة بشكل متزايد: فهي تتفوق في الكتابة والبحث والتعديل والبرمجة، ولكن عندما تتعلق المشاكل بالفضاء ثلاثي الأبعاد والتطور الزمني والقيود الفيزيائية، تبدأ النماذج الحالية في الكفاح. تراهن مورجان ستانلي على "نماذج العالم" للنمو القادم - خوارزميات تعلم فهم البيئة ومحاكاتها واتخاذ القرارات فيها، بتطبيقات تتجاوز الروبوتات والقيادة الذاتية لتشمل إعادة تشكيل صناعة الألعاب والتصميم والإنتاج السينمائي والمحتوى الرقمي.وفقاً لـ "محطة تتبع الاتجاهات"، كتب محلل الأسهم آدم جونس من فريق مورجان ستانلي بأمريكا الشمالية بوضوح في تقريره الأخير: "الذكاء الاصطناعي يتجاوز اللغة نحو نماذج تفهم وتحاكي وتنقل عبر البيئة المادية

SnapshotLaborer

2026-03-23 06:09:43

لقد وصلت النماذج الكبيرة إلى اليوم في مسار “اللغة”، وتصبح حدودها أكثر وضوحًا: فهي تتقن الكتابة، والبحث، والتعديل، والبرمجة، ولكن بمجرد أن تتعلق المشكلة بالفضاء ثلاثي الأبعاد، والتطور الزمني، والقيود الفيزيائية، تبدأ النماذج الجاهزة في التعبير عن عجزها. تضع مورغان ستانلي مستقبل النمو في “النموذج العالمي” — جعل الذكاء الاصطناعي يتعلم فهم، ومحاكاة، واتخاذ القرارات في البيئة، وتطبيقه لا يقتصر على الروبوتات والقيادة الذاتية، بل سيعيد تشكيل صناعات المحتوى الرقمي مثل الألعاب، والتصميم، والإنتاج السينمائي.

وفقًا لـ “تياو ترويج”، كتب محلل الأسهم في فريق مورغان ستانلي بأمريكا الشمالية آدم جوناس في أحدث تقرير بشكل مباشر: “الذكاء الاصطناعي يتجاوز اللغة نحو نماذج تفهم، وتحاكي، وتتنقل في العالم الفيزيائي.” والمعنى الضمني لهذه العبارة هو: في الجولة القادمة من المنافسة، ليس من المهم أن يكون الدردشة أكثر شبهاً بالبشر، بل من يستطيع ضغط قوانين العالم الحقيقي في تمثيل داخلي قابل للاستخدام، ثم يحولها إلى “محرك خيال” تفاعلي.

الأدلة التي قدمها التقرير لا تعتمد على سرد بعيد المدى، بل على ممارسات هندسية حدثت بالفعل: استخدمت شركة ويمو نموذجًا عالميًا يعتمد على DeepMind Genie 3 لإجراء “عشرات المليارات من الأميال” من الاختبارات الافتراضية على الطرق؛ استخدمت شركة مايكروسوفت Muse لتحويل لعبة “Quake II” من عام 1997 إلى نسخة “مُحاكاة بالكامل بواسطة الذكاء الاصطناعي، وقابلة للعب”؛ كما كشفت شركة روبلوكس عن اتجاهات أبحاثها في توليد بيئات غامرة باستخدام نماذج عالمية خاصة بها، وتكرار الألعاب باستخدام اللغة الطبيعية. الشركات الكبرى مثل DeepMind، Meta، مايكروسوفت، تيسلا، إنفيديا، بالإضافة إلى شركات ناشئة تتنافس على المواهب والتمويل.

الأهم من ذلك، أن مورغان ستانلي ركزت في هذا التقرير على شركتين ناشئتين: “وورلد لابز” بقيادة لي فيفي، التي تركز على “توليد عوالم ثلاثية الأبعاد يمكن التنقل فيها”، و"AMI لابز" بقيادة يانغ ليكونن، التي تركز على “تعلم تمثيلات فضائية مخفية عالية الكفاءة للتنبؤ والاستنتاج”. وراء هاتين المسارين، يكمن نفس السؤال: كيف يجب أن يفهم الذكاء الاصطناعي العالم، ومتى يمكن لهذا الفهم أن يتحول من نموذج تجريبي إلى قوة إنتاجية.

من اللغة إلى الفيزياء: ما يحتاجه النموذج العالمي هو سد الثغرات الصعبة في LLMs

وصف التقرير “العالم الفيزيائي” بأنه ساحة معركة أصعب: فهو يخضع لقوانين المادة، والد thermodynamics، والسوائل، والإضاءة، ويعمل في فضاء ثلاثي الأبعاد يتغير باستمرار. الهدف من تدريب نماذج اللغة الكبيرة (LLMs) هو النصوص وتنوعاتها، وهي قوية في أداء المهام المكتبية (الترميز، البحث، الكتابة)، لكن المشكلة ليست في البيانات، بل في القدرة على الحفاظ على تمثيل بيئي متسق على المدى الطويل، وإجراء عمليات استنتاجية في بيئة تتغير باستمرار.

لذا، يُعرف النموذج العالمي بأنه تمثيل داخلي للبيئة يمكن استخدامه: يجب أن يعيد إنتاج ما يراه الآن، وأن يكون قادرًا على دفع الحالة للأمام، وأن يعطي فروعًا مستقبلية مختلفة عند تغير “شرط العمل” — وهو استعارة متكررة لوصف “محرك خيال” الذكاء الاصطناعي.

النموذج العالمي ليس شيئًا واحدًا: هناك خمسة مسارات رئيسية تتوازى

قسمت مورغان ستانلي الطرق الحالية بشكل تقريبي (مع التأكيد على أن الحدود ستتلاشى تدريجيًا):

نموذج عالمي تفاعلي، يعتمد على الشرط الحركي: مثل “محرك الألعاب الذي تعلمه”، حيث يتغير البيئة في الوقت الحقيقي مع أفعال الوكيل (مثال: DeepMind Genie).
مولد عالم ثلاثي الأبعاد متسق: يركز على التوافق الهندسي المكاني وإمكانية استكشافه من زوايا متعددة (مثال: Marble من وورلد لابز).
تمثيلات مجردة / نماذج غير توليدية: لا تسعى إلى توليد صور بكسل، بل تتوقع هياكل فضائية مخفية عالية المستوى وديناميكياتها، مع التركيز على الكفاءة والاستنتاج (مثال: Meta V-JEPA، AMI).
نموذج توليدي تنبؤي للعالم: يشبه “توقع الإطار التالي / الحالة التالية”، ويستخدم في التخطيط، والتنبؤ، واستنتاج القيادة (مثال: Wayve GAIA، NVIDIA Cosmos Predict).
محرك محاكاة البيانات المقيد بالقيود الفيزيائية: يدمج النموذج العالمي مع محاكيات الفيزياء، وخطوط البيانات، لإنتاج بيانات تركيبية أكثر توافقًا مع الفيزياء لتدريب الروبوتات (مثال: Transfer من NVIDIA).

هذا التصنيف له معنى واقعي: فحتى لو سميناها جميعًا “نموذجًا عالميًا”، فهناك من يسعى إلى “توليد عالم يمكن التجول فيه”، ومن يسعى إلى “ضغط العالم إلى حالة قابلة للحساب”، وتختلف أشكال المنتج، والبنية الحاسوبية، ومسارات التسويق.

نبدأ بالألعاب وإنتاج المحتوى: استبدال المحركات مغرٍ، لكنه لن يحدث بسرعة

اللعب هو أكثر الأمثلة وضوحًا في التقرير: يمكن للنموذج العالمي أن يولد بيئات تفاعلية من إشارات قليلة، مما يرفع سرعة إنتاج المحتوى إلى مستوى آخر. مثال على ذلك، لعبة “Quake II” التي أنتجتها مايكروسوفت باستخدام Muse، والتي تظهر بشكل واضح — لم تعد تعتمد على محرك تقليدي لإعادة الإضاءة كل إطار، بل يتوقع النموذج كل إطار استنادًا إلى إدخال اللاعب.

لكن فريق محللي الألعاب في مورغان ستانلي (الذي استشهد بإطار مات كوست) لا يتوقع ذلك بشكل رومانسي: على المدى الطويل، هناك سيناران — إما أن تدمج الشركات الكبرى الذكاء الاصطناعي في أدواتها لتكييفها، أو أن يُستبدل أو يتعرض لاضطرابات جذرية بواسطة نماذج جديدة. يبدو أن الاستبدال أسهل، لأن النماذج الحالية قادرة على “توليد عوالم قابلة للعب باستخدام اللغة الطبيعية”.

لكن التحدي يكمن في ما بعد: قد يكون من الممكن حل سرعة الحوسبة والتكلفة، لكن “النظام الميتا، والتأخير” سيكون أصعب، و"الحتمية، والذاكرة، والتحديث" — وهي مسائل قد تكون صعبة جدًا في إطار النموذج العالمي. هذا يعني أن القيود قصيرة المدى تمنح نافذة للمنافسين القدامى، لكن التهديدات طويلة المدى لا تزال قائمة.

القيادة الذاتية والروبوتات أكثر واقعية: استخدام العالم الافتراضي لملء البيانات و"التفكير قبل العمل"

الهدف من القيادة الذاتية أكثر وضوحًا: نقل المشاهد الخطرة والنادرة والمكلفة في الواقع إلى بيئة افتراضية لتشغيلها على نطاق واسع. يذكر التقرير أن ويمو استخدمت نموذجًا عالميًا يعتمد على DeepMind Genie 3 لإجراء “عشرات المليارات من الأميال” من الاختبارات الافتراضية على الطرق، بهدف تدريب والتحقق من أداء النظام في الحالات النادرة والخطيرة — حيث يصعب أو يكون خطيرًا جدًا أن تتكرر في الطرق الحقيقية.

أما بالنسبة للروبوتات، فهي أكثر عملية: يمكن أن يحل النموذج العالمي مشكلتين — زيادة كمية البيانات التدريبية والاستنتاج قبل التنفيذ. أشار التقرير إلى أبحاث تظهر أن تدريب الروبوت باستخدام بيانات مولدة من النموذج العالمي يمكن أن يكون فعالًا مثل التدريب باستخدام البيانات التفاعلية الحقيقية. لكن مورغان ستانلي تضع حدودًا واضحة: في المدى القصير، من المرجح أن يكون النموذج العالمي والبيانات المحاكاة مكملين لخط البيانات الحقيقي، وليس بديلًا عنه.

التفاصيل التي تثير الإعجاب حقًا تأتي من “الملامسة والاحتكاك”: يوضح التقرير أن الكميات الفيزيائية الدقيقة التي يتجاهلها الكثيرون غالبًا ما تكون الأكثر أهمية — القوة الدقيقة التي يطبقها الإصبع، حالة المحركات القديمة والجديدة، احتكاك السطوح وخصائص المادة الدقيقة، وحتى الاحتكاك الساكن للمفاصل — كلها يمكن أن تؤدي إلى فجوة هائلة بين المحاكاة والواقع عند النقل.

الأصعب هو “الاستقرار على المدى الطويل” و"التحكم": يذكر التقرير أن التحديات محددة جدًا، وبدون مجاملة:

تراكم الأخطاء والانحراف الزمني: كلما طال التفاعل، زادت احتمالية انحراف الأجسام، وتغير الهندسة، وخروج القوانين الفيزيائية عن السيطرة. حتى Genie 3، الذي يُعتبر متقدمًا جدًا، يدعم فقط “بضع دقائق” من التفاعل المستمر.
نقص التحكم: حتى لو كانت الصورة جميلة، فإن مساحة الحركة المحدودة، مثل الحركة الأساسية فقط، ستقيد قيمة المنتج.
التفاعل متعدد الوكلاء والديناميات الاجتماعية: التفاعل بين عدة أشخاص/سيارات/روبوتات في وقت واحد أصعب بكثير من التنقل عبر كاميرا واحدة، وذكرت DeepMind أن هذا أحد التحديات الرئيسية لـ Genie 3.
حجم وتنوع البيانات: خاصة في مجال الروبوتات، جمع بيانات المستشعرات الحقيقية مكلف وبطيء.
غياب معيار موحد: كيف نقيس جودة التفاعل على المدى الطويل؟ لا يوجد معيار معتمد، وغالبًا ما تعتمد التقدمات على عروض تجريبية واختبارات مهام.

هذه القيود تحدد وتيرة الواقع: من المحتمل أن ينتشر النموذج العالمي أولاً في مجالات المحتوى الرقمي التي تتسامح مع الأخطاء، وتكرار التحديث بسرعة، ثم يتسرب تدريجيًا إلى الصناعات التي تتطلب توافقًا فيزيائيًا صارمًا.

رهان لي فيفي: جعل الذكاء الاصطناعي “يفهم” الفضاء ثلاثي الأبعاد

تضع مورغان ستانلي “وورلد لابز” في موقع تمثيل “توليد عوالم ثلاثية الأبعاد متسقة يمكن التنقل فيها”. تأسست الشركة على يد لي فيفي وفريقها في عام 2023، وخرجت من الاختفاء في 2024؛ وأُطلق منتجها الرئيسي Marble في نوفمبر 2025، بهدف “توليد بيئات ثلاثية الأبعاد دائمة وقابلة للاستكشاف من النصوص، والصور، والفيديوهات القصيرة، أو المدخلات ثلاثية الأبعاد الخام، مع دعم التعديل والتوسعة”.

الوظائف التي تذكرها تبدو كأنها منصة عمل موجهة للإبداع والإنتاج: يمكن تعديل الكائنات بعد إنشائها، واستخدام أداة “Chisel” لبناء نماذج أولية ثم إضافة التفاصيل، وتوسيع المناطق المحددة، ودمج عوالم متعددة في مشاهد أكبر، وتصديرها إلى برامج/محركات ثلاثية الأبعاد خارجية، وتوفير واجهات برمجة التطبيقات للمطورين.

كما تؤكد على التوافق مع أدوات الصناعة: يمكن تصديرها إلى Unreal Engine وUnity؛ والتكامل مع منصات محاكاة مثل NVIDIA Isaac Sim؛ وتوضح طرق استخدامها في تصميم المباني، ومحاكاة الروبوتات، وغيرها من السيناريوهات.

كما يُذكر أن رأس المال مهتم جدًا: تقدر PitchBook أن تمويل “وورلد لابز” بلغ حوالي 1.29 مليار دولار، وبعد جولة تمويل في فبراير 2026، بلغ تقييم الشركة بعد التمويل حوالي 5.4 مليار دولار.

طريق يانغ ليكونن الآخر: عدم التصيير، فقط التنبؤ بالبنية

تتبع قصة AMI Labs نمطًا “بحثيًا”: أسس يان ليكونن الشركة في مارس 2026، بمشاركة Yann LeCun، وتركز على إطار JEPA — لا يعيد بناء كل بكسل، بل يتوقع تمثيلات كامنة مغطاة أو مستقبلية (latent embeddings)، ويستخدم هياكل أكثر تجريدًا لدراسة تطور العالم. تصنف مورغان ستانلي هذا ضمن “التمثيلات المجردة / النماذج غير التوليدية”، وتؤكد أن قيمتها تكمن في الاستنتاج، والتخطيط، والذكاء الفيزيائي (خصوصًا الروبوتات).

المواد حول منتجات AMI محدودة جدًا، لكن يمكن تصور تطبيقاتها في: الروبوتات، القيادة الذاتية، فهم وتحليل الفيديو، بالإضافة إلى AR/VR مع الكاميرات، والمساعدين الذكيين. فيما يخص التمويل، ذكرت التقارير أن AMI حصلت على جولة تمويل أولي بأكثر من مليار دولار، وتقييم بعد التمويل يزيد على 4.5 مليار دولار.

رأس المال والموارد يتجمعان بسرعة: سباق الذكاء الفضائي بدأ “يتسارع”

أهم إشارة في تقرير مورغان ستانلي ليست معلمة نموذج معين أو عرضًا تجريبيًا، بل التغير في المشهد: من DeepMind، Meta، مايكروسوفت، تيسلا، إنفيديا، إلى مجموعة من الشركات الناشئة، يتحول النموذج العالمي إلى “اللغة المشتركة للمرحلة القادمة”. يمكن أن يفسر لماذا تظهر قفزات في الإنتاجية في الألعاب، والسينما، والتصميم، وأيضًا لماذا تنقل القيادة الذاتية والروبوتات تدريجيًا عمليات التدريب، والتحقق، والتخطيط إلى العالم الافتراضي بشكل متزايد.

النموذج العالمي ليس قطعة جاهزة يمكن تركيبها مباشرة. الخلاصة التي تقدمها التقارير تشبه خارطة طريق: السيناريوهات التي يمكن تشغيلها ظهرت بالفعل، لكن التحديات الحقيقية لا تزال على الطاولة — الاستقرار على المدى الطويل، والتحكم، والتفاعل متعدد الوكلاء، والتفاصيل الفيزيائية، وأنظمة التقييم. من سيستطيع تحويل هذه المشكلات الصعبة إلى حلقات هندسية مغلقة، هو الذي سيحدد مدى تقدم رحلة “الرقمي إلى الفيزيائي”.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.