مهرجان تمويل النموذج العالمي في أوجهه، ورهانات رأس المال على مسار الذكاء الاصطناعي الفيزيائي بقيمة تريليونات

《证券时报》记者 陈雨康

今年兴起的“龙虾”(OpenClaw)热潮展现出人工智能(AI)无所不能的一面,它可以抓数据、写代码、生成大片、接管计算机。然而一旦脱离屏幕,机器人面对现实世界时宛如稚嫩的孩童,仅能完成固定、流程化的动作,“莫拉维克悖论”横亘在人类通往通用人工智能(AGI)的道路上。

世界模型则是破解这一困境的密钥,它可让机器人真正理解物理世界的规律,拥有思考和推理能力,是实现AGI的关键路径。今年,图灵奖得主杨立昆创办世界模型公司,“AI教母”李飞飞的世界模型公司获巨额融资,国内出现超20起世界模型相关融资事件,业内直呼世界模型或是AI下一个10年的重要风口。

多名AI领域的企业家对《证券时报》记者表示,世界模型能让AI真正实现对物理世界的理解和交互,是实现AGI的必经之路。当下世界模型发展仍处早期,谁能率先撬动物理交互数据飞轮,谁就能抢占发展先机。

يتعين على الذكاء الاصطناعي أن يتجذر في العالم الواقعي

أعلنت OpenAI مؤخرًا إغلاق تطبيق توليد الفيديو Sora، وتعديل اتجاهها الاستراتيجي: بعد ذلك سيكرّس فريق Sora جهوده لبحوث نماذج العالم.

إن التخلي عن توليد واقع واقعي بواسطة الذكاء الاصطناعي، والانتقال إلى جعل الذكاء الاصطناعي يفهم الواقع، يعكس قرار OpenAI المرتفع القادم لمنافسة الاستراتيجيات في القطاع: نماذج العالم. ووفقًا لشرح جامعات مثل جامعة فودان، تفهم نماذج العالم خصائص الأشياء في العالم الفيزيائي وأنماط تشغيلها وخصائصها المكانية عبر التعلّم والتنبؤ بالسمات الديناميكية مثل الحركة والقوة والعلاقات المكانية من بيانات الحواس. وبفضل نماذج العالم، ينتقل الذكاء الاصطناعي من الإدراك والتعرّف إلى الفهم والاستدلال، وهو الأساس للتفاعل الذكي والفعّال بين الذكاء الجسدي والبيئة الموضوعية.

وفي مقابلة مع 《证券时报》، قال تشانغ تشينغ، نائب عميد كلية الإدارة في جامعة فودان ومدير قسم إدارة المعلومات والذكاء الأعمال: إن جوهر “تفكير” الذكاء الاصطناعي هو التنبؤ الاحتمالي القائم على إحصاءات البيانات، ويفتقر إلى المشاعر الحقيقية وإدراك عميق للعالم. تكمن جذور المشكلة في أن النموذج يُبنى أساسًا على بيانات لغوية؛ وعندما يتعلم النموذج العالم عبر النص فقط، تنحصر حدود إدراكه في نطاق ما يمكن للغة التعبير عنه. أما نماذج العالم فتجعل النظام يصوّر أنماط تشغيل البيئة عبر معلومات متعددة الوسائط، بما في ذلك الرؤية والسمع والحركيات المكانية.

وفي مقابلة مع 《证券时报》، قال مياو تشن، شريك مسؤول تدقيق في منطقة شرق وغرب الصين لصناعة السيارات لدى شركة كيه بي إم جي (KPMG) في الصين: إن القيمة الأساسية لنماذج العالم تكمن في بناء عالمٍ افتراضيٍ موازي يتوافق مع القواعد الفيزيائية، ثم من خلال فهم المساحة البيئية والاستدلال والتنبؤ على المدى الطويل وإخراج القرارات، يتحقق الاستدلال على المشاهد والتنبؤ السببي وتغطية المشاهد طويلة الذيل، ما يعوّض النقص في نماذج تعتمد على البيانات وحدها والتي تعجز عن تعميم المشاهد شديدة التطرف طويلة الذيل بشكل كافٍ.

إذا لم تكن هناك نماذج عالم، فمن المحتمل أن يكون الحد الأقصى للروبوتات هو أدوات أتمتة متقدمة لتنفيذ الأكواد بشكل سلبي. وقدّم خه يو، مؤسس شركة كويوا للتكنولوجيا وCEO لها، إلى 《证券时报》 أمثلة عملية على التحديات في تطبيق روبوتات تنظيف الأرضيات في مشاهد حضرية: يستطيع الروبوت تجنب الجدران القياسية، لكن عندما يقترب من غصن مكسور أو أكوام غير منتظمة، وبسبب عدم وجود تعريفات لمثل هذه الأجسام في الأكواد المُعدّة مسبقًا، سيعتبر النظام العقبة غير قابلة للمرور، ما يؤدي إلى التوقف التام عن العمل في الموقع. “إذا توفرت نماذج عالم، يمكن للنظام أن يتنبأ بناءً على الخامات والخصائص الفيزيائية، ويخطط لمسار التفاف، بل ويمكنه دفع الأجسام عبرها بشكل خفيف مع الحفاظ على السلامة، لتحقيق عمل متواصل.”

وليمة تمويل نماذج العالم مستمرة

بناءً على الآفاق والإمكانات التي تعرضها نماذج العالم، كان رأس المال المحلي والدولي يراهن بكثافة عليها. ففي فبراير من هذا العام، أكملت شركة نماذج العالم التي أسسها لي فاي فاي (Li Fei-Fei) جولة تمويل بقيمة 1 مليار دولار. وبعد وقت قصير، أكملت شركة النماذج الأولية لنماذج العالم التي أسسها يانغ ليكون (AMI) تمويلًا يتجاوز 1 مليار دولار أيضًا.

وعلى الصعيد المحلي، تُظهر البيانات التي توفرها شركة Qichacha أنه منذ بداية هذا العام، وقعت 25 عملية تمويل مرتبطة بنماذج العالم داخل الصين، بإجمالي تمويل يتجاوز 2.2 مليار يوان. ومن بينها، أعلنت شركة Jixie Shijie في مارس عن إتمام جولة Pre-B بقيمة 1 مليار يوان، وفي الشهر نفسه أعلنت أن نموذجها للواقع الجسدي GigaWorld-1 قد تصدّر قائمة WorldArena.

“إن موجة تمويل نماذج العالم تُظهر أن توافقًا صناعيًا بدأ يتشكل: إن انتقال الذكاء الاصطناعي من عالم الأرقام إلى العالم الفيزيائي هو ساحة المعركة الرئيسية التالية.” قال مسؤولون ذوو صلة بشركة Qinglang Intelligent في مقابلة مع 《证券时报》. وأضافوا أن قفزة قدرات الذكاء الاصطناعي خلال السنوات العشر الماضية حدثت أساسًا في طبقات الإدراك واللغة. لكن لكي ندخل حقًا إلى العالم الفيزيائي، يجب فهم قوانين عمل العالم الفيزيائي: العلاقات المكانية والعلاقات السببية والخصائص الفيزيائية.

قال المسؤولون إن الرهان على نماذج العالم من حيث الجوهر هو الرهان على مسار بمستوى تريليون في مجال الذكاء الاصطناعي الفيزيائي. ومن المتوقع أن تنتقل خريطة المسار التقني في المستقبل من “التوحيد الكبير” إلى تخصصات متدرجة: تكون نماذج العالم مسؤولة عن الحدس الفيزيائي، وتقوم نماذج الرؤية—اللغة—الحركة (VLA) بالمسؤولية عن الفهم الدلالي، بينما يقوم التحكم في الطبقة السفلية بالتنفيذ الدقيق. مع تحديد التقسيم بوضوح، يمكن أيضًا لرأس المال إيجاد نقاط دخول أكثر دقة.

وقال خه يو لـ 《证券时报》: إن التمويل الكثيف والعالي المستوى الموجه إلى نماذج العالم منذ 2026 يشير إلى أن رأس المال والدوائر التقنية اتفقا على أن “المحطة التالية للنماذج اللغوية الكبيرة هي العالم الفيزيائي”، وأن نماذج العالم هي الطريق الحتمي إلى الذكاء الاصطناعي الجسدي الفيزيائي، ما يمثل “لحظة ChatGPT” المرتقبة للذكاء الجسدي. وفي المنافسة المستقبلية داخل صناعة نماذج العالم، لن تتمكن من قيادة هذه الثورة التقنية إلا الشركات التي تسيطر على مدخلات البيانات الفيزيائية على نطاق واسع وتحقق إغلاقًا تجاريًا للحلقة.

يمكنه جعل الروبوتات أقرب إلى “الإنسان”

خلال السنوات القليلة الماضية، أعادت “الـAGI الرقمية” المبنية على النماذج اللغوية الكبيرة تشكيل العالم الرقمي. وفي العالم، يوجد نحو نصف الناتج المحلي الإجمالي في العالم الفيزيائي، ولا تزال مساحة نمو الـAGI الفيزيائي غير محدودة. والأساس لاندفاع الـAGI الفيزيائي يتمثل في نماذج العالم. وبالاستناد إلى تراكمات تقنية وادخار بيانات سابقة في النماذج من طرف إلى طرف والنماذج المتخصصة، أدخلت عدة شركات للذكاء الاصطناعي محاور أعمالها هذا العام في نماذج العالم.

أطلقت شركة كويوا للتكنولوجيا في فبراير نموذجها العام للواقع الجسدي Coowa WAM 2.0. وقال خه يو للصحفيين إن إطلاق نموذج العالم هذا يهدف إلى حل مشكلتي “نقص القدرة على التعميم” و“حد سقف تطور الصناعة” اللتين تنتشران في قطاع الذكاء الجسدي. ففي السابق، كانت الصناعة تعتمد غالبًا على نماذج قواعد مدفوعة أو نماذج من طرف إلى طرف لسيناريو واحد؛ بينما يمنح نموذج WAM 2.0 كيانات متعددة الأشكال من الذكاء الاصطناعي الفيزيائي فهمًا شائعًا للواقع الفيزيائي المعقد، إلى جانب قدرات استدلال هندسي وتنبؤ سببي.

وكما تعتمد تكرارات النموذج اللغوي الكبير على “عجلة بيانات” ناتجة عن نصوص الإنترنت، فإن تطور نماذج العالم يعتمد أيضًا على بيانات تفاعل عالية القيمة تنتج في العالم الحقيقي بواسطة الأطراف الفيزيائية. قال خه يو إن الشركة تخطط لدفع روبوتات من نوع “الوصي الحضري” التي تُجهز بنموذج WAM 2.0 مباشرة إلى الشوارع والأزقة لمهام تشغيل منتظمة، وفي الوقت الذي تخلق فيه عوائد تجارية، تُعيد باستمرار تدفق بيانات عالية الجودة من العالم الفيزيائي لتدعيم تكرارات النموذج.

تُعد Qinglang Intelligent شركة رائدة في سوق الروبوتات الخدمية، إذ تحتل نسبة شحن الروبوتات الخدمية التجارية المرتبة الأولى عالميًا. وقد أعلنت الشركة العام الماضي عن أول نموذج VLA عالمي مخصص لقطاع الخدمات، وهو KOM2.0.

كشف مسؤولون من Qinglang Intelligent لـ 《证券时报》 مؤخرًا أن الشركة تقوم باستكشاف دمج نموذج VLA مع نماذج العالم بنشاط. وتتمثل نقطة ضعف نموذج VLA في أنه يفتقر إلى الفهم السببي للعالم الفيزيائي، مما يجعله غير قادر على توقع النتائج الفيزيائية التي تترتب على الحركة. تعد نماذج العالم المفتاح للوصول إلى “التعلم بقليل من العينات” و“التعميم الصفري”، إذ تُمكّن الروبوت من محاكاة تبعات الحركة داخل “رأسه”، ثم اختيار أفضل إستراتيجية.

“ما يزال نموذج العالم هو الأساس لتحقيق تفاعل آمن بين الإنسان والآلة. وفي سيناريوهات الخدمة، يحتاج الروبوت إلى توقع تبعات الأفعال، مثل ما إذا كانت قوة تمرير شيء ما مفرطة. وبدون نموذج العالم، لا يستطيع الروبوت فهم سلاسل السببية هذه حقًا.” ذكر المسؤولون أعلاه أن “الشركة ستجرب إدخال القدرة التنبؤية لنموذج العالم في بعض السيناريوهات هذا العام، بهدف تحسين تكيف الروبوت مع البيئة والسلامة.”

تعمل شركة Shanghai Kepler Robotics Co., Ltd. (المشار إليها فيما يلي بـ “Kepler”)، التي تركز على السيناريوهات الصناعية وتطور “روبوتات لعمال الياقات الزرقاء” (blue-collar)، على بناء نماذج عالم صناعية ونماذج عالم منزلية أيضًا. وفي مقابلة مع 《证券时报》، قال شيا أو، كبير مسؤولي التقنية في Kepler: تخطط الشركة أولًا لدمج نموذج العالم الصناعي مع نموذج VLA الصناعي، والتحقق من تأثيره عبر إثباتات جدوى صغيرة النطاق (POC)، لتهيئة الأساس للتطبيق واسع النطاق في المستقبل.

قد تكون حواجز البيانات هي ما يحدد قوة المنافسة لنماذج العالم

يُشار إلى العام الماضي باعتباره “عام الذكاء الجسدي الأول”. وفي الوقت الذي تُظهر فيه الروبوتات “أقدامًا زينة” أقل ذكاءً، ظهرت أيضًا نقاط ألم تتعلق بعدم الكفاية في الذكاء. ومع توجيه المزيد من الشركات استثماراتها نحو نماذج العالم، صرح أحد المطلعين بوضوح أن 2026 قد يكون العام الذي تضع فيه نماذج العالم أساسًا للـAGI. ففي هذا العام، نشر رئيس قسم الروبوتات لدى Nvidia، Jim Fan، مقالًا قال فيه إن عام 2026 سيكون أول سنة تضع فيها نماذج العالم الكبيرة بالفعل أساسًا للروبوتات ولما هو أوسع من ذلك من الذكاء الاصطناعي متعدد الوسائط.

وعلى الرغم من اتساع التوقعات بشأن الآفاق وقوة سرعة التطور، فإن مسار نماذج العالم لا يزال في المراحل المبكرة، ولم تتشكل بعد لدى الصناعة نماذج فنية موحدة وناضجة. والأكثر إثارة للقلق لدى المجتمع الصناعي هو الندرة الشديدة لبيانات عالية الجودة من العالم الفيزيائي، ما يقيّد انتشار نماذج العالم بدرجة كبيرة.

قال خه يو إن تطور نماذج العالم سيرتبط ارتباطًا وثيقًا بالمراحل الثلاث الرئيسية لقطاع الذكاء الجسدي: بدءًا من التحول الحالي نحو الذكاء المتخصص من نوع “垂类”، ثم إلى التعاون المعتمد على السيناريوهات خلال العامين القادمين، ثم إلى تعميم سيناريوهات المنزل بعد 3 إلى 5 سنوات. وفي الوقت الحالي، تقف الصناعة على فترة حرجة للانتقال من المرحلة الأولى إلى المرحلة الثانية. والتحدي الرئيسي في الوقت الراهن يتمثل في الافتقار الشديد إلى بيانات تفاعل حقيقية عالية الجودة ومتعددة الوسائط مع العالم الفيزيائي.

“لا يمكن الاعتماد على بيانات الفيديو على الإنترنت أو بيانات محاكاة الكمبيوتر وحدها فيما يخص بيانات التشغيل. وبعبارة أخرى، لا يمكن للمرابض الدافئة إنتاج نموذج عالم حقيقي؛ إذ إن الاعتماد على بيانات محاكاة على السحابة وحدها لا يحل مشكلة العالم الفيزيائي غير المحدودة من حيث مشاهد الذيل الطويل.” قال خه يو.

قال مسؤولون من Qinglang Intelligent للمراسل إن VLA، إلى جانب التعلم المعزز، يستطيع خلال المدى القصير حل عدد كبير من المشكلات العملية. لكن من منظور التطور المتوسط في الذكاء الجسدي، ومع دخول الروبوت إلى بيئات أكثر انفتاحًا وتعقيدًا (مثل المنزل والأماكن العامة)، ستواجه الأنظمة التي تفتقر إلى نماذج عالم عنق زجاجة في التعميم. عندها ستتكون ميزة جيلية لدى اللاعبين الذين يملكون قدرات نماذج العالم. وعلى المدى الطويل، ستكون نماذج العالم قدرة لا غنى عنها للروبوتات العامة.

“إن حواجز البيانات تتشكل، وتعد ميزة السبق مهمة للغاية. إن الحصول على البيانات الفيزيائية عالية الجودة واستخدامها بشكل معياري هما التحدي الجوهري.” أكد المسؤولون أعلاه أن رأس المال يراهن على ما إذا كانت الشركة قادرة على تشغيل حلقة “البيانات—النموذج—السيناريو”. فإذا تمكنت الشركة من إكمال النشر على نطاق واسع في سيناريوهات حقيقية، يمكنها تكوين ميزة السبق.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.28Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:0
    0.00%
  • تثبيت