مقدمة شينتشاو: هذه المقالة من باحث a16z أوليفر هسو، وهي أكثر خرائط استثمار «الذكاء الاصطناعي الفيزيائي» منهجية منذ عام 2026. حكمه هو: لا تزال مسيرة اللغة/الكود تتوسع، لكن القدرات الثورية التالية الحقيقية ستظهر في ثلاثة مجالات مجاورة — الروبوتات العامة، العلم الذاتي (علماء الذكاء الاصطناعي)، وواجهات الدماغ والحاسوب وغيرها من واجهات الإنسان-الآلة الجديدة. قام المؤلف بتحليل خمس قدرات أساسية تدعمها، وبيّن كيف ستتشكل بين هذه المجالات حلقات تغذية مرتدة بنية تسرع بعضها بعضًا. إذا كنت تريد فهم منطق استثمار الذكاء الاصطناعي الفيزيائي بشكل واضح، فهذا هو الإطار الأكثر اكتمالاً حتى الآن.

اليوم، يهيمن نموذج الذكاء الاصطناعي على المنهجية، مع تنظيم حول اللغة والكود. لقد تم رسم قانون التوسع للنماذج اللغوية الكبيرة بوضوح، والدورة التجارية لتحسين البيانات، والحوسبة، والخوارزميات تدور، مع عوائد كل مستوى جديد من القدرات لا تزال كبيرة، ومعظمها مرئي. هذه المنهجية تستحق كل الاستثمارات والانتباه الذي تتلقاه.

لكن مجموعة أخرى من المجالات المجاورة، بدأت تتقدم بشكل جوهري خلال فترة الحضانة. تشمل هذه مسارات الروبوتات العامة مثل نماذج الرؤية-اللغة-الحركة (VLA)، ونماذج العالم-الحركة (WAM)، بالإضافة إلى البحث الفيزيائي والعلمي حول «العالم الفيزيائي» و«العلماء الذكاء الاصطناعي»، وواجهات تفاعل الإنسان-الآلة الجديدة (بما في ذلك واجهات الدماغ والحاسوب والتقنيات العصبية). بالإضافة إلى التقنية نفسها، بدأت هذه الاتجاهات تجذب المواهب، ورؤوس الأموال، والمؤسسين. تتطور اللغات الأساسية للتفاعل مع العالم الفيزيائي في الوقت ذاته، وتُظهر التقدمات خلال الـ 18 شهرًا الماضية أن هذه المجالات ستدخل بسرعة مراحل التوسع الخاصة بها.

في أي نموذج تقني، غالبًا ما يكون المكان الذي يوجد فيه أكبر فارق بين القدرات الحالية والإمكانات المتوسطة هو ما يتسم بخصيصتين: أولاً، يمكنه الاستفادة من عوائد التوسع ذاتها التي تدفع النمو في الطليعة، وثانيًا، يبعد خطوة عن النموذج السائد — قريب بما يكفي لوراثة البنية التحتية والديناميكيات البحثية، وبعيد بما يكفي ليحتاج إلى عمل إضافي ملموس. هذه المسافة لها وظيفتان: فهي تخلق بشكل طبيعي حاجزًا أمام المتابعين السريعين، وفي الوقت ذاته تحدد مساحة مشكلة أكثر ندرة وأقل ازدحامًا، مما يزيد من احتمالية ظهور قدرات جديدة — تمامًا لأن الطرق المختصرة لم تُستنفد بعد.

الشرح التوضيحي: العلاقة بين النموذج السائد للذكاء الاصطناعي (اللغة/الكود) والنظم المتقدمة المجاورة

ثلاثة مجالات تتوافق مع هذا الوصف اليوم: تعلم الروبوتات، العلم الذاتي (خصوصًا في مجالات المواد وعلوم الحياة)، وواجهات الإنسان-الآلة الجديدة (بما في ذلك واجهات الدماغ والحاسوب، والصوت غير الصاخب، والتقنيات العصبية القابلة للارتداء، وأجهزة الحواس الجديدة مثل الشم الرقمي). ليست هذه المجالات مستقلة تمامًا، فهي تنتمي إلى نفس مجموعة «نظم الطليعة في العالم الفيزيائي». تشترك في مجموعة من اللغات الأساسية: تمثيلات التعلم الديناميكي الفيزيائي، والهياكل الموجهة للحركات المادية، والبنى التحتية للبيانات التمثيلية والمحاكاة والتوليف، وقنوات الحواس الموسعة باستمرار، وتنظيم الوكيل الذكي بشكل مغلق. تتعزز هذه المجالات من خلال علاقات رد الفعل عبر التخصصات، وهي أيضًا الأماكن الأكثر احتمالاً لظهور قدرات نوعية — وهي نتاج تفاعل حجم النماذج، والتطبيقات الفيزيائية، والأشكال الجديدة للبيانات.

سوف نستعرض في هذا المقال اللغات الأساسية التي تدعم هذه الأنظمة، ونوضح لماذا تمثل هذه المجالات فرصًا رائدة، ونقترح كيف يشكل تفاعلها المتبادل حلقة تسرع بنية ترفع الذكاء الاصطناعي إلى العالم الفيزيائي.

خمس لغات أساسية

قبل التطرق للتطبيقات المحددة، من المهم فهم الأساس التقني المشترك لهذه الأنظمة المتقدمة. دفع الذكاء الاصطناعي المتقدم إلى العالم الفيزيائي يعتمد على خمس لغات رئيسية. هذه التقنيات ليست حصرية لأي مجال تطبيق واحد، فهي مكونات — تُمكّن بناء أنظمة «تمديد الذكاء الاصطناعي إلى العالم الفيزيائي». نضوجها المتزامن هو السبب الخاص لهذا الوقت الحاضر.

الشرح التوضيحي: دعم الذكاء الاصطناعي الفيزيائي من خلال خمس لغات أساسية

اللغة الأولى: تمثيلات التعلم الديناميكي الفيزيائي

أهم لغة أساسية، هي القدرة على تعلم تمثيلات مضغوطة وعامة لسلوكيات العالم الفيزيائي — كيف تتحرك الأجسام، تتشوه، تصطدم، وتتفاعل مع القوى. بدون هذه الطبقة، سيتعين على كل نظام ذكاء اصطناعي فيزيائي أن يبدأ من الصفر في تعلم قوانين الفيزياء الخاصة بمجاله، وهو تكلفة لا يمكن دفعها.

هناك عدة مدارس معمارية تقترب من هذا الهدف من زوايا مختلفة. نموذج VLA يبدأ من الأعلى: باستخدام نماذج بصرية-لغوية مدربة مسبقًا — التي تمتلك فهمًا دلاليًا للأجسام، والعلاقات المكانية، واللغة — يضيف إليها مشفر حركة يُخرج أوامر تحكم في الحركة. النقطة الأساسية أن تكلفة «الرؤية» و«فهم العالم» يمكن تقليلها عبر التدريب المسبق على النصوص والصور على نطاق الإنترنت. نماذج مثل π₀ للذكاء الفيزيائي، وGemini Robotics من Google DeepMind، وGR00T N1 من إنفيديا، أثبتت صحة هذا الهيكل على نطاقات متزايدة.

نموذج WAM يبدأ من الأسفل: باستخدام Transformer موسع للفيديو تم تدريبه على فيديوهات على نطاق الإنترنت، مع احتفاظه بمعرفة غنية بالديناميكيات الفيزيائية (كيف تسقط الأجسام، وكيف تتعرض للاختفاء، وكيف تتفاعل تحت القوى)، ثم يربط هذه المعرفة مع توليد الحركة. عرضت إنفيديا في DreamZero قدرة على التعميم على مهام وبيئات جديدة بدون أمثلة، باستخدام كمية صغيرة من البيانات الملائمة، مع تحسين ملحوظ في التعميم على العالم الحقيقي.

ثالث مسار، قد يكون الأكثر إلهامًا للمستقبل، يتخطى نماذج VLM وعمليات التوسع بالفيديو. النموذج GEN-1 من Generalist هو نموذج أساسي موجه نحو التفاعل الفيزيائي، تم تدريبه من الصفر على أكثر من 500 ألف ساعة من البيانات الحقيقية للتفاعل الفيزيائي، تُجمع بشكل رئيسي عبر أجهزة قابلة للارتداء من أشخاص ينفذون مهام يومية. لا يُعد هذا نموذج VLA تقليدي (لا يوجد مشفر بصري-لغوي مُعدّل)، ولا WAM، بل هو نموذج أساسي مصمم خصيصًا للتفاعل الفيزيائي، يتعلم من أنماط الاتصال بين الإنسان والأجسام، وليس من إحصائيات الصور أو النصوص أو الفيديو على الإنترنت.

شركات مثل World Labs تعمل على الذكاء المكاني، وتُعنى بهذا اللغة الأساسية لأنها تكمل النقص في نماذج VLA وWAM والنماذج الأساسية التفاعلية: جميعها لا تتضمن نمذجة واضحة للهياكل الثلاثية الأبعاد للمشاهد. نماذج VLA تعتمد على ميزات بصرية ثنائية الأبعاد من تدريب النصوص والصور، وWAM يتعلم الديناميكيات من الفيديوهات التي هي في الأصل ثنائية الأبعاد من منظور ثلاثي الأبعاد، والنماذج التي تتعلم من بيانات المستشعرات القابلة للارتداء تلتقط القوة والحركة، لكنها لا تلتقط هندسة المشهد. النماذج الذكية للمساحة يمكن أن تساعد في سد هذه الثغرة — من خلال تعلم إعادة بناء، وتوليد بيئات فيزيائية كاملة ثلاثية الأبعاد، وإجراء استنتاجات حولها: هندسة، إضاءة، حجب، علاقات الأجسام، وتخطيط الفضاء.

تلاقي هذه المسارات هو جوهر التركيز. سواء كانت التمثيلات من وراثة VLM، أو من التعلم التعاوني بالفيديو، أو من بناء أصلي من بيانات التفاعل الفيزيائي، فإن اللغة الأساسية المشتركة هي نموذج سلوك فيزيائي مضغوط وقابل للنقل. البيانات التي تغذي هذه التمثيلات هائلة، ومعظمها لم يُستخدم بعد — ليست فقط فيديوهات الإنترنت ومسارات الروبوت، بل أيضًا كم هائل من البيانات البشرية التي تُجمع بشكل متزايد عبر الأجهزة القابلة للارتداء. نفس التمثيل يمكن أن يخدم روبوتًا يتعلم طي المناشف، أو مختبرًا مستقلًا يتوقع ردود الفعل، أو جهاز فك رموز عصبي يقرأ نوايا القبض.

اللغة الثانية: هياكل موجهة للحركات المادية

امتلاك تمثيلات فيزيائية فقط غير كافٍ. لتحويل «الفهم» إلى أفعال فيزيائية موثوقة، يحتاج الأمر إلى هياكل تحل عدة مشكلات مترابطة: تحويل النوايا العليا إلى أوامر حركة مستمرة، الحفاظ على التناسق عبر تسلسلات طويلة، التشغيل في ظل تأخير زمني حقيقي، والتحسين المستمر مع الخبرة.

الهيكل الهرمي ذو النظامين أصبح المعيار للمهام المادية المعقدة: نماذج بصرية-لغوية بطيئة وقوية مسؤولة عن فهم المشهد واستنتاج المهام (النظام 2)، مع استراتيجيات حركة سريعة وخفيفة للسيطرة اللحظية (النظام 1). نماذج مثل GR00T N1، وGemini Robotics، وHelix من Figure تستخدم هذا النهج، لحل التوتر بين «النماذج الكبيرة توفر استنتاجات غنية» و«المهام الفيزيائية تتطلب تردد تحكم في الميلي ثانية». النموذج العامي (Generalist) يتبع مسارًا آخر، باستخدام «الاستنتاج الرنيني» ليجعل التفكير والحركة يحدثان في الوقت ذاته.

آليات توليد الحركة تتطور بسرعة. π₀، الذي أسسها عبر مطابقة التدفقات والتفكيك، أصبح الآن الأسلوب السائد لتوليد حركات سلسة ومتواصلة عالية التردد، بدلاً من الاعتماد على الرموز المنفصلة المستعارة من نماذج اللغة. هذه الطرق تعتبر عملية توليد الحركة كعملية إزالة ضوضاء مشابهة لتوليف الصور، وتنتج مسارات أكثر سلاسة من الناحية الفيزيائية، وأكثر استقرارًا ضد تراكم الأخطاء، متفوقة على التوقعات التلقائية المستندة إلى الرموز.

لكن التقدم الأهم من حيث الهيكل هو توسيع التعلم المعزز ليشمل نماذج VLA المدربة مسبقًا — نموذج أساسي يُتدرب على أمثلة، ويمكنه تحسين أدائه عبر التدريب الذاتي، تمامًا كما يُحسن الإنسان مهارة عبر التكرار والتصحيح الذاتي. عمل π*₀.₆ من Physical Intelligence هو أبلغ مثال على ذلك. يستخدمون RECAP (تعلم معزز يعتمد على استراتيجيات الميزة، مع خبرة وتصحيح)، لحل مشكلة توزيع الثقة على تسلسلات طويلة، التي لا يمكن أن تحلها التعلم بالتقليد فقط. إذا أمسك روبوت بمقبض ماكينة قهوة إيطالية بزاوية غير مثالية، لن تظهر الفشل على الفور، بل قد يتضح بعد عدة خطوات عند الإدخال. التعلم بالتقليد لا يملك آلية لربط هذا الفشل المبكر بالمحاولة السابقة، لكن التعلم المعزز لديه. RECAP يُدرّب قيمة تقديرية لاحتمال النجاح من أي حالة وسيطة، ويختار الأفعال ذات الأفضلية العالية. المهم أنه يدمج أنواعًا مختلفة من البيانات — بيانات الأمثلة، والتجارب الذاتية، والتصحيحات من خبرة الخبراء عن بُعد — في خط تدريب واحد.

هذه المنهجية تبشر بمستقبل واعد للتعلم المعزز في مجال الحركة. π*₀.₆ ينجح في بيئات منزلية حقيقية في تكديس 50 نوعًا من الملابس لم يرها من قبل، ويجمع علب كرتون بشكل موثوق، ويصنع قهوة إيطالية على آلات مهنية، ويعمل لساعات متواصلة بدون تدخل بشري. في أصعب المهام، يضاعف RECAP الإنتاجية مقارنةً بالمحاكاة التقليدية، ويقلل معدل الفشل بأكثر من النصف. كما أثبت أن التدريب بعد التعلّم يمكن أن يُنتج سلوكيات نوعية لم تكن ممكنة بالتقليد فقط: حركات استعادة أكثر سلاسة، واستراتيجيات قبض أكثر كفاءة، وتصحيحات ذاتية لم تكن موجودة في البيانات التدريبية.

هذه النتائج تؤكد شيئًا واحدًا: أن الدفع بالحوسبة من GPT-2 إلى GPT-4، من خلال التوسع في الحسابات، بدأ يعمل في المجال المادي — لكنه الآن في مراحل مبكرة على المنحنى، حيث فضاء الحركة هو مستمر وعالي الأبعاد، ويجب التعامل مع قيود العالم الفيزيائي القاسية.

اللغة الثالثة: البنى التحتية للمحاكاة والبيانات التركيبية

في مجال اللغة، تم حل مشكلة البيانات عبر الإنترنت: تريليونات من النصوص الناتجة طبيعيًا والمتاحة مجانًا. في العالم الفيزيائي، المشكلة أكبر بعدة مرات — وهو ما أصبح إجماعًا، والدليل المباشر هو زيادة الشركات الناشئة التي توفر بيانات فيزيائية. جمع مسارات الروبوتات الحقيقية مكلف، ويحتمل أن يكون محفوفًا بالمخاطر، ويقتصر على تنوع محدود. يمكن لنموذج لغة أن يتعلم من مليار محادثة، لكن روبوتًا (حتى الآن) لا يمكنه أن يشارك في مليار تفاعل فيزيائي.

توليد البيانات عبر المحاكاة والتركيب هو البنية التحتية الأساسية لحل هذا القيد، ونجاحها هو أحد الأسباب الرئيسية لتسريع الذكاء الاصطناعي الفيزيائي اليوم مقارنة قبل خمس سنوات.

تجمع بنية المحاكاة الحديثة بين محركات المحاكاة الفيزيائية، والتصيير بالليزر، وتوليد البيئات برمجياً، والنماذج الأساسية للعالم التي تستخدم الإدخال من المحاكاة لإنتاج فيديوهات عالية الجودة — الأخيرة تسد فجوة التحويل من المحاكاة إلى الواقع. تبدأ السلسلة من إعادة بناء المشهد الحقيقي عبر الشبكات العصبية (بكاميرا واحدة فقط)، ثم تملأ الأصول الفيزيائية الدقيقة، ثم تولد بيانات تركيبية ضخمة مع علامات تلقائية.

تحسينات بنية المحاكاة تعني أنها تغير الافتراضات الاقتصادية لدعم الذكاء الاصطناعي الفيزيائي. إذا كانت العقبة هي «جمع البيانات الحقيقية»، فإنها تتحول إلى «تصميم بيئات افتراضية متنوعة»، وتتكسر التكاليف. مع توسع الحوسبة، يمكن للمحاكاة أن تعتمد على الحوسبة بدلاً من العمل البشري والأجهزة الفيزيائية. هذا يعيد تشكيل الهيكل الاقتصادي لتدريب أنظمة الذكاء الاصطناعي الفيزيائي، تمامًا كما غيرت البيانات النصية على الإنترنت تدريب نماذج اللغة — استثمار البنية التحتية للمحاكاة يضاعف من تأثير النظام البيئي بأكمله.

لكن المحاكاة ليست فقط لغة أساسية للروبوتات. نفس البنية التحتية تخدم العلم الذاتي (مثل النسخ الرقمية لمختبرات الأبحاث، والمحاكاة لاختبار الفرضيات)، وواجهات جديدة (مثل بيئات الأعصاب المحاكاة لتدريب مفككي الشفرة، وبيئات تركيبية لمعايرة الحساسات الجديدة)، وغيرها من مجالات التفاعل بين الذكاء الاصطناعي والعالم الفيزيائي. المحاكاة هي محرك البيانات العام للذكاء الاصطناعي الفيزيائي.

اللغة الرابعة: توسيع قنوات الحواس

إشارات العالم الفيزيائي تنقل معلومات أكثر بكثير من الرؤية واللغة. اللمس ينقل خصائص المواد، واستقرار القبضة، والهندسة التلامسية التي لا يمكن للكاميرات رؤيتها. الإشارات العصبية، عبر أي واجهة حاسوبية بشرية، تتضمن عرض نطاق ترددي أكبر بكثير من أي تقنية حالية — تُشفر نوايا الحركة، والحالة الإدراكية، والخبرات الحسية. نشاط عضلات الصوت قبل إصدار الصوت يُشفر نوايا الكلام. اللغة الأساسية الرابعة، هي توسيع قنوات الحواس التي يصعب الوصول إليها سابقًا — ليس فقط من خلال البحث، بل أيضًا عبر تطوير أجهزة استهلاكية، وبرمجيات، وبنى تحتية.

الشرح التوضيحي: قنوات الحواس الموسعة للذكاء الاصطناعي، من AR وEMG إلى واجهات الدماغ والحاسوب

المؤشر الأكثر وضوحًا هو ظهور أجهزة جديدة. أجهزة الواقع المعزز (AR) تحسنت بشكل كبير خلال السنوات الأخيرة من حيث التجربة والشكل (وبعض الشركات تستخدمها الآن في تطبيقات استهلاكية وصناعية). الأجهزة التي تعتمد على الصوت بشكل أساسي، مثل الأجهزة القابلة للارتداء التي تركز على اللغة، تمنح سياقًا فيزيائيًا أكثر اكتمالًا للذكاء الاصطناعي — فهي تتبع المستخدمين في البيئة الفيزيائية. على المدى الطويل، قد تفتح واجهات الأعصاب إمكانيات تفاعل أوسع. التحول في طرق الحوسبة التي يوفرها الذكاء الاصطناعي يخلق فرصة لترقية تفاعل الإنسان-الآلة بشكل كبير، وتعمل شركات مثل Sesame على تطوير قنوات وأجهزة جديدة لهذا الغرض.

الصوت، كواجهة أكثر انتشارًا، يوفر أيضًا فرصة لنقل تكنولوجيا التفاعل الجديدة. منتجات مثل Wispr Flow تركز على الصوت كوسيلة إدخال رئيسية (لأنه عالي الكثافة المعلوماتية وله مزايا طبيعية)، وتحسين سوق الواجهات الصوتية غير الصاخبة. أجهزة الصوت غير الصاخبة تلتقط حركات اللسان والحبال الصوتية باستخدام مستشعرات متعددة، وتعرف اللغة بدون صوت — وهو نمط تفاعل إنساني-آلة ذو كثافة معلومات أعلى من الصوت.

واجهات الدماغ والحاسوب (الداخلية والخارجية) تمثل أفقًا أعمق، مع استمرار تطور بيئة الأعمال حولها. الإشارات تظهر في التحقق السريري، والموافقات التنظيمية، ودمج المنصات، ورؤوس الأموال — وهو مجال كان قبل سنوات حكرًا على الأبحاث الأكاديمية.

حاسة اللمس تدخل الآن في بنية الذكاء الاصطناعي التفاعلي، حيث بدأت بعض نماذج الروبوتات تضع اللمس كعنصر أساسي. واجهات الشم الرقمية تتطور إلى منتجات هندسية: شاشات الشم القابلة للارتداء تستخدم مولدات روائح صغيرة، وتستجيب خلال ميلي ثانية، وتم عرضها في تطبيقات الواقع المختلط؛ نماذج الشم بدأت تتطابق مع أنظمة الذكاء البصري، وتستخدم لمراقبة العمليات الكيميائية.

الأنماط المشتركة لهذه التطورات هي أنها تتقارب عند حدودها. نظارات الواقع المعزز تنتج باستمرار بيانات بصرية ومكانية عن تفاعل المستخدم مع البيئة؛ أساور EMG تلتقط إحصائيات نوايا الحركة البشرية؛ واجهات الصوت غير الصاخبة تلتقط من نشاط الحبال الصوتية إلى اللغة؛ وواجهات الدماغ والحاسوب تلتقط النشاط العصبي بدقة عالية؛ وأجهزة اللمس تلتقط ديناميكيات التلامس الفيزيائي. كل جهاز جديد هو منصة توليد بيانات، تغذي نماذج في مجالات متعددة. روبوت يستخدم بيانات EMG لاستنتاج نوايا الحركة، وآخر يعتمد على بيانات التحكم عن بُعد، يكتسب استراتيجيات قبضة مختلفة؛ واجهة مختبرية تستجيب لأوامر الحبال الصوتية، وأخرى تعتمد على لوحة مفاتيح، تخلق طرق تفاعل مختلفة بين العلماء والآلات؛ ومفكك رموز عصبي مدرب على بيانات عالية الكثافة، ينتج تمثيلات تخطيط الحركة لا يمكن الحصول عليها من أي قناة أخرى.

انتشار هذه الأجهزة يوسع بشكل فعال فضاء البيانات التي يمكن أن تدعم أنظمة الذكاء الاصطناعي الفيزيائي، ويقودها بشكل كبير شركات استهلاكية ذات موارد مالية، وليس فقط الأبحاث الأكاديمية، مما يعني أن دورة البيانات ستتوسع مع اعتماد السوق.

اللغة الخامسة: أنظمة الوكيل الذكي المغلقة

أخيرًا، لغة أكثر تخصصًا في الهيكلية. تشير إلى دمج الإدراك، والاستنتاج، وتنظيم الأفعال في نظام مستمر، مستقل، مغلق، يعمل بشكل ذاتي على مدى فترات طويلة دون تدخل بشري.

في نماذج اللغة، تطور مماثل هو ظهور الأنظمة الذكية — سلاسل استنتاج متعددة الخطوات، واستخدام الأدوات، وعمليات التصحيح الذاتي، التي حولت النموذج من أداة استجابة لمحادثة واحدة إلى حل مشكلات مستقل. في العالم الفيزيائي، يحدث التحول نفسه، لكن مع متطلبات أكثر قسوة. يمكن لنموذج ذكي لغوي أن يخطئ ويعود خطوة للخلف بدون تكلفة، لكن نموذج فيزيائي يتسبب في كسر زجاجة كيميائية لن يمكن إصلاحه بسهولة.

الأنظمة الذكية الفيزيائية تتميز بثلاث خصائص تميزها عن النسخ الرقمية: أولاً، تحتاج إلى دمجها في تجارب أو عمليات مغلقة، بحيث تتصل مباشرة مع البيانات الحية، والحالة الفيزيائية، والأوامر، بحيث ينعكس الاستنتاج على الواقع الفيزيائي وليس على وصفه النصي فقط. ثانيًا، تحتاج إلى استمرارية طويلة المدى: ذاكرة، تتبع، مراقبة أمان، واستعادة سلوك، تربط بين دورات تشغيل متعددة، وليس كل مهمة كحلقات منفصلة. ثالثًا، تحتاج إلى قدرة على التكيف في الحلقة المغلقة: تعديل الاستراتيجيات استنادًا إلى النتائج الفيزيائية، وليس فقط استجابةً للتعليقات النصية.

هذه اللغة تربط بين قدرات مستقلة (نموذج عالمي جيد، هياكل أفعال موثوقة، مجموعة حساسات غنية) لتشكيل نظام كامل قادر على العمل بشكل مستقل في العالم الفيزيائي. إنها طبقة التكامل، ونجاحها هو شرط وجود تطبيقات حقيقية، وليس مجرد أبحاث تجريبية.

ثلاثة مجالات

هذه اللغات الأساسية هي أدوات تمكين عامة، ولا تحدد بشكل مباشر أين ستتوجه أهم التطبيقات. العديد من المجالات تتعلق بالحركات الفيزيائية، والقياسات، والإحساس الفيزيائي. الفرق يكمن في مدى استفادة النماذج من قدرات النموذج، وتطور البنى التحتية للبيانات، وهو ما يضاعف بشكل مركب — ليس فقط تحسين الأداء، بل ظهور قدرات جديدة لم تكن ممكنة من قبل.

الروبوتات، والعلم المدفوع بالذكاء الاصطناعي، وواجهات الإنسان-الآلة الجديدة، هي المجالات التي تظهر فيها هذه التفاعلات بشكل أكثر قوة. كل مجال يستخدم بشكل فريد مكونات اللغة الأساسية، وكل واحد منها مقيد حاليًا بقيود تذوب تدريجيًا، ويولد بشكل غير مباشر نوعًا من البيانات الفيزيائية المنظمة، التي بدورها تُحسن اللغة الأساسية، وتسرع النظام بأكمله. ليست هذه المجالات الوحيدة التي تتعلق بالذكاء الاصطناعي الفيزيائي، لكنها الأكثر تداخلًا مع القدرات الجديدة، والأكثر ابتعادًا عن النموذج السائد للغة والكود، والأكثر احتمالية لظهور قدرات جديدة، والأكثر تكاملًا مع النموذج السائد، والأكثر استفادة من عوائده.

الروبوتات

الروبوتات هي التجسيد الحرفي للذكاء الاصطناعي الفيزيائي: نظام ذكاء اصطناعي يحتاج إلى الإدراك اللحظي، والاستنتاج، والتفاعل المادي مع العالم. وهي أيضًا اختبار حقيقي لكل لغة أساسية.

تخيل كم مهمة يتطلبها روبوت عام لطي منشفة واحدة. يحتاج إلى تمثيل فيزيائي مكتسب حول كيف تتصرف المواد القابلة للتشوه تحت القوى — وهو معرفة فيزيائية أساسية، لا توفرها نماذج اللغة. يحتاج إلى بنية أفعال تترجم الأوامر العليا إلى تسلسلات تحكم مستمرة بسرعة تزيد على 20 هرتز. يحتاج إلى بيانات تدريب من المحاكاة، لأنه لم يُجمع من قبل ملايين من عروض الطي الحقيقي. يحتاج إلى ردود فعل لمسية للكشف عن الانزلاق وضبط قوة القبضة، لأن الرؤية لا تميز بين قبضة ثابتة وفاشلة. وأخيرًا، يحتاج إلى وحدة تحكم مغلقة يمكنها التعرف على الأخطاء واستعادتها، بدلاً من تنفيذ مسارات ذاكرة بشكل أعمى.

الشرح التوضيحي: استدعاء متزامن للغات الأساسية الخمسة في مهام الروبوتات

لهذا السبب، الروبوتات ليست مجرد أداة، بل نظام طليعي، وليست تخصصًا هندسيًا ناضجًا. هذه اللغات ليست مجرد تحسين لقدرات الروبوتات الحالية، بل تفتح فئات جديدة من العمليات، والحركات، والتفاعلات لم تكن ممكنة خارج بيئات صناعية محدودة.

شهدنا تقدمًا كبيرًا خلال السنوات الماضية — كتبنا سابقًا عن ذلك. أول جيل من نماذج VLA أثبت أن النماذج الأساسية يمكنها التحكم في الروبوتات لأداء مهام متنوعة. التقدم في الهيكلية يربط بين الاستنتاجات العليا والتحكم الأدنى. أصبح الاستنتاج في الطرف، مع إمكانية التعميم عبر الأجسام، بحيث يمكن لنموذج واحد أن يتكيف مع منصة روبوت جديدة ببيانات محدودة. التحدي الرئيسي الآن هو الاعتمادية على نطاق واسع، وهو عائق رئيسي أمام النشر. نجاح بنسبة 95% لكل خطوة، و60% عبر سلسلة من 10 خطوات، غير كافٍ للبيئة الإنتاجية. التعلم المعزز بعد التدريب لديه إمكانيات كبيرة، لمساعدة هذا المجال على الانتقال إلى مرحلة التوسع، وتحقيق متطلبات الصلابة.

هذه التقدمات تؤثر على الهيكل السوقي. طوال عقود، كانت قيمة صناعة الروبوتات تتركز في الأنظمة الميكانيكية نفسها، لكن مع اعتماد استراتيجيات التعلم بشكل أكثر معيارية، تتجه القيمة نحو النماذج، والبنى التحتية للتدريب، ودورة البيانات. الروبوتات أيضًا تغذي اللغات الأساسية: كل مسار حقيقي في العالم يضيف بيانات تدريبية لتحسين النماذج، وكل فشل في النشر يفضح ثغرات في التغطية بالمحاكاة، وكل اختبار لمنصة جديدة يوسع تنوع الخبرة الفيزيائية التي يمكن استخدامها في التدريب. الروبوتات ليست فقط المستهلك الأكثر تطلبًا لهذه اللغات، بل أيضًا مصدر إشارات تحسين مهمة.

العلم الذاتي

إذا كانت الروبوتات تختبر «العمل الفيزيائي اللحظي»، فإن العلم الذاتي يختبر شيئًا مختلفًا — استنتاجات مستمرة ومتعددة الخطوات حول أنظمة فيزيائية معقدة، على مدى ساعات أو أيام، مع نتائج تحتاج إلى تفسير، وتوضيح، وتعديل الاستراتيجيات بناءً عليها.

الشرح التوضيحي: كيف تدمج العلم الذاتي (العالم الذكي) اللغات الأساسية الخمسة

الذكاء الاصطناعي في العلم هو المجال الذي يدمج اللغات الأساسية بشكل أعمق. يحتاج المختبر الذاتي (SDL) إلى تعلم تمثيلات الديناميكا الفيزيائية والكيميائية للتنبؤ بنتائج التجارب؛ ويحتاج إلى حركات موجهة لانتقال السوائل، وتحديد العينات، والتعامل مع الأجهزة التحليلية؛ ويحتاج إلى محاكاة لاختبار التجارب المحتملة، وتخصيص الوقت للأجهزة النادرة؛ ويحتاج إلى توسعة قنوات الحواس — مثل الطيف، والكروس، والطيف الكتلي، وأجهزة الاستشعار الكيميائية والبيولوجية الجديدة — لوصف النتائج. يتطلب هذا النظام بشكل خاص تنسيقًا مغلقًا للذكاء الاصطناعي: بحيث يمكنه إدارة «سلسلة افتراضات-تجارب-تحليل-تصحيح» بدون تدخل بشري، مع الحفاظ على تتبع، ومراقبة أمان، وتعديل الاستراتيجيات استنادًا إلى المعلومات الجديدة.

لا توجد أنظمة أخرى تستخدم هذه اللغات بشكل عميق بهذا الشكل. لهذا السبب، يُعتبر العلم الذاتي نظامًا طليعيًا، وليس مجرد أتمتة مخبرية محسنة. شركات مثل Periodic Labs وMedra تدمج قدرات الاستنتاج العلمي والتحقق الفيزيائي، وتنتج بيانات تدريبية بشكل مستمر، وتسرع دورة التطوير العلمي.

قيمتها واضحة من الناحية الحدسية. اكتشاف المواد التقليدي يستغرق سنوات، لكن تسريع الذكاء الاصطناعي يمكن أن يختصر هذا بشكل كبير. التحدي الرئيسي يتحول من «توليد الفرضيات» (الذي يمكن أن يساعد فيه النموذج الأساسي) إلى «الصناعة والتحقق» (الذي يتطلب أدوات فيزيائية، وروبوتات، وتحسين مغلق). SDL يركز على هذا التحدي.

ميزة أخرى مهمة للعلم الذاتي، في جميع أنظمة العالم الفيزيائي، هي دوره كمحرك بيانات. كل تجربة يُجريها SDL لا تنتج فقط نتيجة علمية، بل إشارة تدريبية مثبتة وذات أساس فيزيائي. قياس كيف تتبلور البوليمرات تحت ظروف معينة يُثري فهم النموذج للعقود الديناميكية للمواد؛ ومسار التوليف المُثبت يصبح بيانات تدريب للاستنتاج الفيزيائي؛ وفشل مُعَرف يُعلم النظام عن مواضع قصور توقعاته. البيانات الناتجة عن عالم ذكي حقيقي تختلف في طبيعتها عن النصوص على الإنترنت أو المخرجات المُحاكاة — فهي منظمة، وسببية، ومثبتة تجريبيًا. هذا هو نوع البيانات التي يحتاجها نماذج الاستنتاج الفيزيائي، والتي لا تتوفر من مصادر أخرى. العلم الذاتي يربط الواقع الفيزيائي مباشرة بمعرفة منظمة، ويُحسن النظام البيئي للذكاء الاصطناعي الفيزيائي.

واجهات جديدة

الروبوتات تمد الذكاء الاصطناعي إلى العمل الفيزيائي، والعلم الذاتي يمده إلى البحث الفيزيائي. الواجهات الجديدة تمده إلى تفاعل الإنسان مع العالم، عبر أجهزة مثل نظارات الواقع المعزز، وأساور EMG، وواجهات الدماغ والحاسوب المزروعة. ما يوحد هذه الأجهزة هو وظيفة مشتركة: توسيع عرض النطاق والأنماط لقنوات الاتصال بين الإنسان والذكاء الاصطناعي — وتوليد بيانات تفاعل مباشرة يمكن استخدامها لبناء أنظمة ذكاء اصطناعي فيزيائية.

الشرح التوضيحي: من نظارات AR إلى واجهات الدماغ والحاسوب، تسلسل الواجهات الجديدة

المسافة بين هذه المجالات والنموذج السائد، هي تحدٍ وفرصة في آنٍ واحد. نماذج اللغة تتعرف على هذه الأنماط من الناحية المفاهيمية، لكنها ليست مهيأة بشكل طبيعي لفهم حركات الصوت غير الصاخب، أو الهياكل الهندسية للشم، أو الديناميكيات الزمنية لإشارات EMG. فك رموز هذه الإشارات يتطلب تعلمها من القنوات الحسية التي تتوسع. العديد من هذه الأنماط لا تتوفر على نصوص أو صور على نطاق الإنترنت، وغالبًا ما يُنتجها النظام نفسه — مما يعني أن النظام وبيانات تدريبه يتطوران معًا، وهو شيء لا يوجد في نماذج اللغة.

الأداء الحديث في هذا المجال هو الارتفاع السريع للأجهزة القابلة للارتداء كمستهلكات. نظارات AR ربما تكون المثال الأبرز، لكن أجهزة أخرى تعتمد على الصوت أو الرؤية تظهر أيضًا.

هذه البيئة من الأجهزة الاستهلاكية توفر منصة جديدة لتوسيع الذكاء الاصطناعي إلى العالم الفيزيائي، وتتحول إلى بنية تحتية لبيانات العالم الفيزيائي. شخص يرتدي نظارات ذكية يمكنه إنتاج بث فيديو من وجهة نظره عن كيفية تنقل الإنسان في البيئة، والتفاعل مع الأجسام، والتواصل مع العالم؛ وأجهزة أخرى تلتقط بيانات حيوية وحركية بشكل مستمر. تتوسع قدرات الأجهزة القابلة للارتداء، وتتحول إلى شبكة توزيع لبيانات العالم الفيزيائي، تسجل تجارب الإنسان الفيزيائية على نطاق غير مسبوق. فكر في حجم الهواتف الذكية كمستهلك، حيث أن جهاز استهلاكي جديد على نفس المستوى يتيح للكمبيوتر أن يدرك العالم من خلال أنماط جديدة — ويفتح قناة تفاعل ضخمة بين الذكاء الاصطناعي والعالم الفيزيائي.

واجهات الدماغ والحاسوب تمثل أفقًا أعمق. Neuralink زرعت بالفعل أجهزة في عدة مرضى، وتتم تحديثات الروبوتات البرمجية وبرامج فك الرموز. Stentrode من Synchron تستخدم الآن للتحكم في بيئة رقمية وبيئية للأشخاص المصابين بالشلل. شركة Echo Neurotechnologies تعمل على نظام BCI لاستعادة اللغة، استنادًا إلى أبحاثها في فك رموز الكلام عالي الدقة من القشرة الدماغية. شركات جديدة مثل Nudge تتجمع من أجل تطوير واجهات عصبية ومنصات تفاعل دماغي جديدة، مع استثمار كبير في المواهب ورأس المال. من الناحية التقنية، هناك معالم مهمة: شريحة BISC التي تظهر 65536 قطبًا لاسلكيًا لتسجيل الأعصاب، وفريق BrainGate الذي ينجح في فك رموز اللغة الداخلية من القشرة الحركية.

الخط الرئيسي الذي يربط نظارات AR، والأجهزة القابلة للارتداء، والأجهزة غير الصاخبة، وواجهات الدماغ والحاسوب، هو أنها ليست مجرد واجهات، بل تشكل طيفًا متزايدًا لعرض النطاق بين التجربة البشرية والذكاء الاصطناعي — وكل نقطة على هذا الطيف تدعم تقدم اللغات الأساسية الثلاثة التي ناقشناها. روبوت مدرب على بيانات عالية الجودة من مستخدمي نظارات AR، يختلف تمامًا عن روبوت يعتمد على بيانات تحكم عن بُعد مُنقحة؛ والنظام المختبري الذي يستجيب لأوامر الحبال الصوتية يختلف عن ذلك الذي يعتمد على لوحة مفاتيح، من حيث الكمون وسلاسة التفاعل؛ ومفكك رموز عصبي مدرب على بيانات عالية الكثافة ينتج تمثيلات تخطيط حركة لا يمكن الحصول عليها من أي قناة أخرى.

انتشار هذه الأجهزة يوسع بشكل فعال فضاء البيانات التي يمكن أن تدعم أنظمة الذكاء الاصطناعي الفيزيائي، ويقودها بشكل كبير شركات استهلاكية ذات موارد، وليس فقط الأبحاث الأكاديمية، مما يعني أن دورة البيانات ستتوسع مع اعتماد السوق.

الأنظمة الفيزيائية

اعتبار الروبوتات، والعلم الذاتي، والواجهات الجديدة كمكونات من لغة أساسية واحدة، هو أن هذه الأنظمة تتفاعل وتُعزز بعضها بعضًا، وتولد تراكبات مركبة.

الشرح التوضيحي: حلقة تغذية مرتدة بين الروبوتات، والعلم الذاتي، والواجهات الجديدة

الروبوتات تمكّن العلم الذاتي. في الواقع، فإن مختبرات القيادة الذاتية هي نوع من أنظمة الروبوتات. القدرات التشغيلية التي تطورها للروبوتات — مثل القبض الماهر، والتعامل مع السوائل، والدقة في التحديد، وتنفيذ المهام المتعددة — يمكن أن تنتقل مباشرة إلى أتمتة المختبرات. كل تقدم في نماذج الروبوتات يعزز قدرة SDL على تنفيذ بروتوكولات تجريبية مستقلة. كل تطور في تعلم الروبوت يقلل من تكلفة التجارب، ويزيد من حجمها.

العلم الذاتي يمكّن الروبوتات. البيانات العلمية التي تنتجها المختبرات — القياسات الفيزيائية، نتائج التجارب السببية، قواعد البيانات للخصائص — توفر البيانات المنظمة والملموسة التي تحتاجها نماذج العالم والنماذج الاستنتاجية. والأهم، أن المواد والأجهزة التي ستحتاجها الروبوتات في المستقبل — مثل المحركات، وأجهزة الاستشعار الحساسة، والبطاريات عالية الكثافة — هي نتاج علم المواد. تسريع الابتكار في المواد عبر منصات الاكتشاف الذاتي يساهم مباشرة في تحسين البنية التحتية المادية التي تعمل عليها الروبوتات.

الواجهات الجديدة تمكّن الروبوتات. أجهزة الواقع المعزز تجمع بيانات «كيف يدرك الإنسان ويتفاعل مع البيئة الفيزيائية». واجهات الأعصاب تنتج بيانات عن نوايا الحركة، والتخطيط الإدراكي، والمعالجة الحسية. هذه البيانات قيمة جدًا لتدريب أنظمة الروبوتات، خاصة في مهام التعاون البشري-الآلي أو التحكم عن بُعد.

هناك ملاحظة أعمق حول طبيعة تقدم الذكاء الاصطناعي الطليعي نفسه. لقد حققت نماذج اللغة والكود إنجازات غير مسبوقة، وتستمر في النمو بقوة في عصر التوسع. لكن التحديات الجديدة التي يطرحها العالم الفيزيائي — أنواع البيانات الجديدة، والإشارات، والتغذية

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 2

أعجبني
2
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GatePreIPOsLaunchesWithSpaceX
142.41K درجة الشعبية
#
Gate13thAnniversaryLive
228.47K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
29.94K درجة الشعبية
#
US-IranTalksVSTroopBuildup
767.86K درجة الشعبية
#
CryptoMarketRecovery
95.24K درجة الشعبية

تثبيت

خريطة الموقع

a16z مقال طويل: المستقبل التالي للذكاء الاصطناعي لا يكمن في اللغة، بل في العالم المادي — العجلة الثلاثية للروبوتات، العلوم الذاتية، واجهات الدماغ والكمبيوتر

المواضيع الرائجة

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

US-IranTalksVSTroopBuildup

CryptoMarketRecovery

تثبيت