الذكاء الاصطناعي للذكاء المكاني: الأفق التالي لفي-في لي

فِي-فِي لي تقول إنّ حدود الذكاء الاصطناعي القادمة هي الذكاء المكاني

ملخص صغير: تقول فِي-فِي لي إنّ ذكاءً مكانيًا للذكاء الاصطناعي قد يشكّل المرحلة التالية من الحوسبة. وخلال حديثها في HUMANX في سان فرانسيسكو، جادلت بأن اللغة وحدها ليست كافية. وأشارت إلى نماذج عوالم ثلاثية الأبعاد، وWorld Labs ونظامها Marvel باعتبارها لبنات أساسية للروبوتات والألعاب والرعاية الصحية والتنقّل الذاتي.

في HUMANX في سان فرانسيسكو، جادلت فِي-فِي لي بأن الخطوة الكبرى التالية في مجال الذكاء الاصطناعي لن تأتي من اللغة وحدها. بدلًا من ذلك، ركّزت على ذكاء مكاني للذكاء الاصطناعي: قدرة الآلات على فهم عالم الأبعاد الثلاثية والرباعية للهندسة والحركة والتفاعل والفيزياء والتغيّر مع مرور الوقت، والاستدلال عليه وتوليده.

تتمحور هذه الحجة في صلب World Labs، الشركة التي أسستها لي بهدف بناء أنظمة ذكاء اصطناعي تتجاوز النصوص والصور. ومن وجهة نظرها، تُعد نماذج اللغة مثل ChatGPT تقدمًا كبيرًا، لكنها لا تلتقط سوى جزء من الذكاء البشري. فالحياة اليومية والعمل واتخاذ القرار يعتمد أيضًا على العمل داخل فضاء مادي.

“الذكاء البشري ليس لغويًا فحسب”، قالت لي. وصفت الفهم المكاني بأنه ضروري للإدراك والاستدلال والتنفيذ، خصوصًا في المجالات التي يتعين على الآلات فيها التنقل داخل البيئات والتنبؤ بالنتائج والتفاعل مع العالم الحقيقي.

ماذا يعني ذكاء مكاني للذكاء الاصطناعي عمليًا

تعرّف لي الذكاء المكاني بأنه القدرة على إدراك وفهم وتوليد فضاء ثلاثي الأبعاد أو رباعي الأبعاد. ويشمل ذلك الشكل والهندسة والتفاعلات والقيود الفيزيائية والديناميكيات مع مرور الوقت.

على أرض الواقع، يكمن الفرق في أن هناك نظام ذكاء اصطناعي يستطيع وصف غرفة، وآخر يستطيع فهم كيفية ارتباط الأشياء ببعضها داخلها، وكيف يغيّر تحرك الأشياء المشهد، وما الذي يُرجّح أن يحدث بعد ذلك. ضمن هذا الإطار، يمنح نموذج العالم الآلات تمثيلًا للفضاء يمكن أن يدعم التخطيط والتنفيذ.

ربطت لي هذه الفكرة برؤية أوسع للذكاء تتشكل عبر الإدراك والتجسّد Embodiment. وأشارت إلى القوس الطويل للتطور البيولوجي، واستشهدت بتطور أنظمة الحس “قبل نصف مليار سنة” كمجاز يوضح لماذا لا يمكن اختزال الذكاء في معالجة اللغة وحدها.

لماذا تأسست World Labs خارج الأوساط الأكاديمية

قالت لي إن الانطلاقة لهذا العمل ظهرت من تقارب حدث في 2022–2023. فمن جهة كانت هناك تطورات في الذكاء الاصطناعي التوليدي مدفوعة بنماذج Transformer. ومن جهة أخرى كانت هناك تحسينات في الرؤية الحاسوبية وتمثيل 3D. وبحسب قولها، أدّت هذه التطورات معًا إلى خلق الشروط التقنية الضرورية لفئة جديدة من النماذج تتمحور حول الفهم المكاني.

مع ذلك، جاء ذلك الاحتمال أيضًا بمتطلبات على مستوى الصناعة. قالت لي إن قرار إطلاق World Labs يعكس الحاجة إلى قدرات حوسبة وبيانات ومواهب على نطاق يصعب تجميعه في بيئة أكاديمية بحتة.

“يتطلب ذلك موارد هائلة—الحوسبة والبيانات والمواهب”، قالت. وفي حين شددت على أهمية الأوساط الأكاديمية، بما في ذلك مؤسسات مثل Stanford Human-Centered AI Institute، رسمت تمييزًا واضحًا بين البحث المنطلق من الفضول وبين بناء شركة تستهدف النشر الفعلي في العالم الحقيقي.

كانت صياغتها مباشرة: بصفتها باحثة، فهي مدفوعة بالفضول؛ وبصفتها الرئيس التنفيذي، فهي بنّاءة تركز على إحداث أثر.

كيف يتصل ذكاء مكاني للذكاء الاصطناعي بـ Marvel وعوالم 3D

أكثر مثال ملموس من World Labs هو Marvel، وهو نموذج توليدي وصفته لي بأنه قادر على إنشاء عوالم ثلاثية الأبعاد حقيقية. وشددت على أن Marvel لا يكتفي بتوليد فيديو فحسب. بدلًا من ذلك، ينتج بيئات مستمرة وقابلة للتنقّل يمكن للمستخدمين أو للآلات التحرك خلالها.

وفقًا للي، بدأت هذه العوالم كبيئات صغيرة نسبيًا. ثم يمكن توسيعها لتشمل مساحات أكبر وضمّها إلى مشاهد أكثر تعقيدًا. يهم هذا التمييز لأن نموذج عالم قابل للتنقّل يمتلك قيمة تقنية وتجارية مختلفة عن مخرج بصري خامد.

“Marvel هو نموذج توليدي يخلق عوالم ثلاثية الأبعاد حقيقية—ليس فيديوهات، بل بيئات مستمرة وقابلة للتنقّل”، قالت.

النتيجة تمتد على نطاق واسع. فقد يصبح نموذج يولّد عوالم مترابطة مكانيًا طبقة أساس للتطبيقات التفاعلية، بدءًا من تطوير الألعاب والتصميم الرقمي وصولًا إلى قطاعات كثيفة المحاكاة مثل الروبوتات والأنظمة الذاتية.

لماذا تُعد البيانات أكبر عنق زجاجة

نظمت لي التحدي التقني حول ثلاثة أعمدة: النماذج والحوسبة والبيانات. ومن بين هذه الثلاثة، حدّدت لي البيانات باعتبارها أصعب مشكلة.

“أ أصعب جزء هو البيانات”، قالت.

المسألة ليست حجم البيانات فحسب. إذ إن تجميع مجموعات بيانات عامة كبيرة للغة أسهل بكثير من تجميع مجموعات بيانات عامة كبيرة تلتقط بدقة البنية المكانية والحركة والفيزياء والتفاعلات في العالم الحقيقي. وبناء نماذج عوالم ثلاثية الأبعاد يتطلب بيانات أصعب في جمعها، وأصعب في وضع الوسوم عليها، وأصعب في توحيدها.

يشتد هذا التحدي بشكل خاص في مجال الروبوتات، حيث تكون إمدادات بيانات التدريب المفيدة محدودة أكثر. وبالنسبة للأنظمة التي يتعين عليها توقع ما سيحدث بعد ذلك في العالم المادي، تعتمد جودة التنبؤ بشكل كبير على ثراء وواقعية البيانات المكانية.

لخّصت لي القيمة الأساسية لنماذج العالم من منظور تشغيلي: إن التنبؤ بالحالة التالية يدعم التخطيط والتنفيذ.

لماذا تُعد البيانات الاصطناعية مهمة في ذكاء مكاني للذكاء الاصطناعي

لمعالجة نقص البيانات، تستخدم World Labs مزيجًا من البيانات الحقيقية والاصطناعية. قالت لي إن طريقة الجمع بين هذين المصدرين تشكل جزءًا مركزيًا من تقنية الشركة.

“نقوم بتدريبنا على مزيج من البيانات الحقيقية والاصطناعية، وكيف نجمعهما يُعد جزءًا رئيسيًا من تقنيتنا”، قالت.

تتجاوز هذه النقطة World Labs. ففي القطاعات التي تكون فيها البيانات من العالم الحقيقي نادرة أو مكلفة أو صعبة الالتقاط على نطاق واسع، يمكن للبيانات الاصطناعية أن تساعد في سد الفجوات وتنويع حالات الحافة وتسريع التجريب. كما أشارت لي إلى أن النماذج القادرة على توليد بيئات منظمة مكانيًا قد تصبح أدوات بحد ذاتها للمعامل الأخرى، خصوصًا في مجال الروبوتات.

ونتيجة لذلك، يظهر حلقة تغذية راجعة محتملة ومهمة. إذ يمكن لنماذج العالم التي تتعلم من بيانات ممزوجة أن تولّد بيئات اصطناعية إضافية للتدريب والاختبار والمحاكاة في أنظمة مجاورة.

متى قد تظهر التطبيقات المبكرة

سردت لي مجموعة واسعة من التطبيقات المحتملة للذكاء المكاني، بما في ذلك الألعاب والفن والتصميم والروبوتات والتعليم والرعاية الصحية والتصنيع والقيادة الذاتية.

قد يأتي بعض أوائل التأثيرات العملية في الصناعات التي تعتمد بالفعل على المحاكاة والتنبؤ في العالم المادي. ففي التنقّل الذاتي، تعمل شركات مثل Tesla وWaymo في إعدادات يكون فيها فهم الهندسة والحركة والتفاعل أمرًا أساسيًا. وفي مجال الروبوتات، يمكن لنماذج العالم تحسين جودة المحاكاة والتنبؤ بالحالة والتخطيط لتنفيذ الأفعال.

تُعد الرعاية الصحية مجالًا آخر بارزًا. وأشارت لي إلى التفسير المكاني للبيانات الشعاعية كمثال واحد على كيفية دعم الذكاء الاصطناعي المدرك لـ 3D للمهام السريرية. قد تتحرك الألعاب والإعلام الغامر بسرعة أيضًا، نظرًا للقيمة الفورية للبيئات المستمرة وقابلة للتنقّل في إنشاء المحتوى والتجارب التفاعلية.

ومع ذلك، بقي النقاش توجيهيًا أكثر منه تجاريًا. لم تقدم لي جدولًا زمنيًا للنشر لـ Marvel، ولا تفاصيل عن الإتاحة العامة، ولا مقاييس أداء مُكمّمة.

كيف تدعم الصناعة والأوساط الأكاديمية ذكاء مكاني للذكاء الاصطناعي

كانت من بين السمات المتكررة في ملاحظات لي أن مستقبل الذكاء الاصطناعي سيتطلب مساهمات من الأكاديميا ومن الصناعة معًا. تظل الأوساط الأكاديمية ضرورية للتفكير الأساسي والبحث ممتد الآفاق والاستكشاف العلمي. أما الصناعة، في المقابل، يمكنها جمع القدرة الحاسوبية وسعة الهندسة والتركيز التشغيلي اللازمين لتحويل المفاهيم الناشئة إلى أنظمة قابلة للاستخدام.

يظهر تقسيم العمل هذا بشكل خاص في مجال مثل الذكاء المكاني، حيث يتعين أن تتقدم الأبحاث الرائدة والبنية التحتية على نطاق واسع معًا. وتعكس مواقف لي هذا الدور المزدوج: فهي تظل مرتبطة ارتباطًا وثيقًا بـ Stanford Human-Centered AI Institute بينما تبني World Labs حول مهمة تجارية وتقنية.

يعزز النظام البيئي الأوسع للذكاء الاصطناعي هذه النقطة. لقد أتاحت نماذج Transformer ثورة اللغة وراء أنظمة مثل ChatGPT. وساعدت شركات مثل Anthropic على دفع تطوير نماذج الجيل الرائد. وتتمثل حجة لي في أن المرحلة التالية ستتطلب خطوة تغيير مماثلة للآلات التي تفهم العالم المادي.

ما الذي لا يزال غير واضح

رغم كل الوضوح الاستراتيجي في أطروحة لي، ما تزال هناك عدة تفاصيل مهمة غير مُعلنة. لم تُذكر أرقام مالية عن الموارد التي تم جمعها، ولا أرقام محددة حول نطاق الحوسبة، ولا شرح تقني مفصّل سوى قدر محدود عن البنية الداخلية لـ Marvel.

كما كان هناك حديث قليل عن الجداول الزمنية للطرح التجاري أو الوصول العام. إضافة إلى ذلك، وعلى الرغم من أن الوعد الصناعي كان واضحًا، فقد أولت المحادثة اهتمامًا أقل لمسائل السلامة والحوكمة والأسئلة الأخلاقية التي قد تنشأ عندما تولّد أنظمة الذكاء الاصطناعي عوالمًا اصطناعية قابلة للتنقّل أو تدعم تطبيقات فيزيائية عالية المخاطر.

ومع ذلك، كانت رسالة لي واضحة لا لبس فيها. فإذا كان ذكاء اللغة قد حدّد المرحلة الأخيرة من الذكاء الاصطناعي، فقد يحدد الذكاء المكاني المرحلة التالية. وبالنسبة للمطورين والمستثمرين والباحثين وفرق المنتجات، فهذا يعني أن الجبهة التنافسية قد تميل بشكل متزايد نحو أنظمة يمكنها نمذجة العالم، لا مجرد وصفه.

In sintesi

تقول فِي-فِي لي إنّ حدود الذكاء الاصطناعي القادمة هي الذكاء المكاني، وليس اللغة وحدها. تتمثل أطروحتها في أن الآلات تحتاج إلى فهم فضاء 3D، والحركة، والفيزياء، والتغيّر مع مرور الوقت لدعم التخطيط والتنفيذ في العالم الحقيقي.

تعمل World Labs على تحقيق هذا الهدف عبر نماذج العالم ونظام Marvel. أكبر تحدٍ، وفقًا للي، هو البيانات. وقد تظهر فرص مبكرة في الروبوتات والألعاب والرعاية الصحية والتصنيع والتنقّل الذاتي.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:0
    0.00%
  • تثبيت