بعد أن انتقد "أب الروبيان" الإنترنت البشري، أخيرًا قام شخص ما بمعالجة الأمر على محمل الجد

(المصدر: آلة العقل)

المحرر|تشانغ تشيان

لا أعرف إن كان الجميع ما زال يتذكر، في مارس من العام الماضي، نشر العبقري في مجال الذكاء الاصطناعي كارباثي تغريدة. والمعنى العام هو: إن معظم المحتوى في الوقت الحالي ما زال يُكتب للإنسان، لكن في المستقبل قد لا يكون من يقرأ هذا المحتوى إنسانًا بل ذكاءً اصطناعيًا. لذلك، ومن الآن فصاعدًا، علينا أن نفكر في كيفية كتابة الوثائق بطريقة أكثر ملاءمة للذكاء الاصطناعي.

بصراحة، عندما رأيت هذا الرأي آنذاك، لم أكن قد أدركت تمامًا ما الذي يعنيه. قد يكون كثير من رواد الإنترنت مثلي أيضًا؛ بل إن بعضهم قال إن التفكير في هذا الأمر مبكر جدًا، لأن الاستخدام الرئيسي للإنترنت الآن لا يزال «للناس».

لكن خلال عام واحد فقط تغيّر الوضع. فبعد أن جرب كثيرون «روبيكس» (龙虾)، صاروا حتى لا يتكلفون عناء ترتيب ملفات سطح المكتب بأنفسهم، ناهيك عن مهام قذرة ومضنية مثل البحث عن معلومات على الإنترنت.

ومن شبه المؤكد أن ما قاله كارباثي حول «أن يصبح الذكاء الاصطناعي قوة رئيسية على الإنترنت» سيتحقق قريبًا، فالبشر الذين تذوقوا الحلاوة لن يستطيعوا العودة إلى ما كانوا عليه. فكيف تبدو حال إنترنتنا الآن؟ كما قال أحد رواد الإنترنت: لا تزال «طريقًا مرصوفًا بالحجارة من زمن العربات».

بالنسبة إلى الوكلاء (Agent)، هذه الطريق مليئة بالمطبات في كل منعطف—فبرامج التحقق وتسجيل الدخول تقف وتتعطل، والأدوات التي تُعثر عليها على الإنترنت يتعين اختبارها واحدة تلو الأخرى، والـtoken يُستخدم وكأنه لا يكلف شيئًا (مع أنه فعليًا مكلف جدًا). وحتى لو نجحت المهمة، يتعين الانتظار نصف يوم تقريبًا، كما في أيام الإنترنت بالاتصال الهاتفي.

قال لي ليو هونغتاو، الذي تابعنا من عصر إنترنت الكمبيوتر إلى عصر إنترنت الهاتف المحمول، إن هذا الوضع غير مقبول في الواقع. لا بد أن نعرف أن معيار قابلية استخدام إنترنت البشر هو 99.9%، وأن هؤلاء كانوا حتى قد جادلوا في ذلك وخاضوا معركة من أجل زيادة هذا الرقم بإضافة المزيد من «9». وفي الوقت الحالي، فإن معدل نجاح استدعاء الوكلاء لأدوات خارجية لا يتجاوز 60%—وهذه هي نتيجة الاستدعاء خطوة واحدة فقط، فإذا أضفنا خطوات أخرى ينخفض إلى أقل من 30%.

لذلك، عندما اشتكى «أبو الروبيكس» (龙虾) بيتر شتاينبرغر في مقابلة من أن البنية التحتية الحالية للإنترنت غير ودّية للغاية مع الوكلاء (Agent)، شعرت ليو هونغتاو بتطابق قوي مع ما قاله. والمشكلة التي أشار إليها بيتر هي بالضبط اتجاه ريادة الأعمال الذي كان قد راهن عليه منذ قبل عامين ودخل فيه رسميًا في ربيع العام الماضي—Agent Internet Infra.

الحكم الأساسي لدى بيتر شتاينبرغر هو: إن الإنترنت الحالية ليست مصممة لوكلاء، وهي تتزايد ضررًا على الوكلاء بسبب عوامل مثل الحظر، وكود التحقق (验证码)، ونظام الصلاحيات، وغياب CLI/API، وغيرها؛ لذلك يجب أن يعاد بناء الإنترنت/البنية التحتية للبرمجيات من الجيل التالي باتجاه إعادة تهيئتها لتكون ملائمة للـAgent. (تم إنشاء الترجمة النصية بواسطة AI)

اسم الشركة الجديدة التي أسسها ليو هونغتاو هو AgentEarth. الفريق الأساسي المكوَّن من ثلاثة أشخاص، خلفياتهم جميعًا قوية. كان هو نفسه قد عمل كرئيس تنفيذي في شركة Yunzhihui (云智慧) للذكاء التشغيلي في «يونكورن» (شركة ناشئة بقيمة تتجاوز المليار)، ومرّ بسيناريوهات التحقق والتوسع على نطاق من 0 إلى 1 للبنية التحتية على مستوى المؤسسات. أما كبير مسؤولي التكنولوجيا (CTO) دانغ مينغهوي (Lucas)، فهو أحد بناة النسخة الأولى من نظام التشغيل الذكي لشركة Didi؛ لديه خبرة في بناء نظام مطابقة لحظي كبير على نطاق مئات الملايين من المستخدمين وعناصر سيارات الأجرة عند الطلب بكميات هائلة. كما لديه خبرة في بناء وتشغيل البنية. أما كبير العلماء، الأستاذ شيويه، فقد ركّز لسنوات طويلة على تقنيات الشبكات المتقدمة على مستوى وطني، والبروتوكوليات في الطبقة الأساسية هي مجال قوته.

CEO AgentEarth

ليو هونغتاو (اليسار) وCTO دانغ مينغهوي (اليمين)

مثل هذا التشكيل، من الواضح أنهم لا يخططون لصنع أداة Agent بسيطة. وبحسب ليو هونغتاو، فإن ما يريدون القيام به هو أعمال البنية التحتية: إنشاء خط لوجستيات نقل عالي السرعة للـAgent Internet في الطبقة السفلية، بحيث تعمل عملية نقل البيانات بثبات وسرعة؛ وفوق ذلك يفتحون «متجرًا ذاتيًا حصريًا»—ليس للناس للتمشية والتسوق، بل لخدمة Agent بوصفه مستخدمًا نهائيًا حقيقيًا: بمجرد دخول «المتجر»، يستطيع بسرعة استدعاء أدوات عالية الجودة تم فرزها وإدارتها. أما الأول فيعتمد على بروتوكولات النقل من الجيل الجديد التي طوروها سنوات من البحث والابتكار؛ وأما الثاني فيكمن في تجميع الأدوات والاستضافة والتنسيق الذكي على نحو متين، بحيث لا يعود الـAgent مضطرًا إلى التجربة في كل مكان مثل «الذباب بلا رأس»، بل سيوفر وقتًا وtoken ثمينين.

وبالنسبة إلى كيفية التنفيذ تحديدًا، تواصل ليو هونغتاو في الحديث بتفصيل.

إنترنت مصممة للإنسان

مزعجة جدًا للـAgent

في الآونة الأخيرة، قامت Anthropic وOpenAI بإشعال كلمة جديدة مرة أخرى، اسمها Harness Engineering. قالت Anthropic في مدونتها إن نفس النموذج ونفس التعليمات (prompts)، قد ينتج لعبة لا يمكن لعبها في البداية، لكن عند تغيير طريقة التشغيل والبيئة، يمكن أن تخرج لعبة رائعة.

قدمت هذه المؤسسات الرائدة تنبيهًا من خلال التجارب: صحيح أن تحسين النموذج نفسه مهم جدًا، لكن لا يمكن تجاهل البيئة الخارجية المحيطة بتشغيل النموذج؛ وإلا فسوف يؤثر ذلك في قدرة النماذج الكبيرة على الأداء.

وهذا يفسر لماذا كان OpenAI قد أعلن منذ عام 2024 أن النماذج الكبيرة وصلت في بعض الجوانب إلى مستوى قدرات الدكتوراه، لكن حتى هذا العام، بدأ الجانب المتعلق بالإنتاجية يظهر إحساسًا ملموسًا على مستوى الواقع.

إن بناء هذه البيئة أعقد بكثير مما يتخيل المرء. خلال العامين الماضيين، كان مهندسو مجال Agent Infra يحاولون حل بعض المشكلات، مثل التخزين طويل الأمد للذاكرة والتنسيق أثناء التشغيل، لتوفير نظام دعم طبقة سفلية يوفر تشغيلًا مستقرًا للـAgent. لكن هذه «حمّى الروبيكس» كشفت بشكل كافٍ أيضًا عن نقطة ضعف—الاستدعاء الخارجي. فاعرف أنه حتى عملية حجز تذكرة بسيطة، يحتاج الـAgent إلى استدعاء أكثر من عشر أدوات خارجية. لذلك، عندما يبدأ الـAgent في القيام بأعمال على الإنترنت مثل الإنسان، تصبح طبقة الشبكة ساحة الصراع الجديدة.

أشار ليو هونغتاو إلى أنه بالنسبة لهذه «ساحة الصراع» الجديدة، يجب أن يتبع بناء البنية التحتية منطقًا جديدًا، لأن سلوك الوكلاء على الإنترنت يختلف كثيرًا عن سلوك البشر.

إن تصفح البشر للإنترنت يبدأ بفتح المتصفح، والبحث عن كلمات مفتاحية، ثم النقر على صفحات الويب التي تهمهم، وبعد ذلك يأتي التصفح والتفكير والحكم. يستغرق المرء وقتًا أطول نسبيًا في صفحة واحدة، لكن إجمالي فعل التصفح ليس معقدًا، وتضمن تقنيات التخزين المؤقت مثل CDN (تخزين الخدمة مرة واحدة لتخدم مجموعة كبيرة من الناس) السرعة، كما ترفع واجهات المستخدم المصممة بدقة كفاءة الأداء، وتكون الأدوات كلها تقريبًا—بعد سنوات—مألوفة وسهلة الاستخدام.

لكن Agent مختلف: فهو لا «يتصفح» ليرى، بل يتصفح «لإنجاز العمل». يحتاج الوكيل إلى أدوات تمتد عبر عدة نماذج ومنصات، وسلسلة التنفيذ طويلة؛ وإذا تم تعطيل مكان واحد، تقع المهمة كلها في حفرة التجربة والخطأ. إضافة إلى ذلك، تتطلب سرعته أكثر مما يحتاجه البشر؛ فهو لا يحتاج إلى وقت الاستجابة، بل يريد أن تكون النتيجة أسرع قدر الإمكان ليبدأ خطوة تالية فورًا.

إلا أن الحقيقة هي أن صفحات الويب والأدوات على الإنترنت الحالية غالبًا ما صُممت للإنسان (كما ورد في مقابلة بيتر أن الـAgent يحتاج إلى النقر على التحقق مثل «أنا لست روبوتًا» على صفحات الويب). ولا يوجد حصر/تهيئة مخصصة للـAgent، لذلك تنقطع سلاسل طويلة للـAgent بسهولة. علاوة على ذلك، فإن بعض الأشياء التي يحصل عليها الـAgent من الإنترنت تكون مجرد احتياج خاص به (مثل توليد صورة معينة)، ولا يستطيع الآخرون استخدامها بعد الانتهاء؛ لذلك تفقد CDN فعاليتها ولا يمكن أن تبقى السرعة مرتفعة.

تتراكب هذه الخصائص معًا، فتجعل البنية التحتية للإنترنت لدى البشر تبدأ تظهر «عدم توافق مع البيئة» أمام الـAgent. وفي الوقت الحالي ما يزال Agent Internet في مرحلة نموه البرية؛ الأدوات الخارجية مختلطة من حيث الجودة، والواجهات فوضوية، والجودة متفاوتة. ونتيجة لذلك، يفقد الـAgent «بوصلة التفكير» بشكل متكرر أثناء الاستدعاء؛ وفي تكرار التجربة والخطأ وتكرار تمرير السياق (context) يُستهلك عدد كبير من token هدرًا، ولا يمكن رفع سرعة إنجاز المهام.

عند هذه النقطة يصبح واضحًا جدًا ما الذي يجب أن يفعله اتجاه Agent Internet Infra: فهو يهدف إلى توفير بروتوكولات وشبكات طبقة أساسية ووُسَطات (middlewares) تمكن عددًا هائلًا من الوكلاء من الاكتشاف الذاتي، والاتصال الآمن، والتعاون الموثوق، مع التركيز على حل كيفية اتصال الـAgent بالعالم الخارجي، وكيف يتعاون الوكلاء فيما بينهم بسلاسة مثل تعاون البشر عبر الإنترنت. وتشمل قدراته الأساسية المصادقة على الهوية، وبروتوكولات الاتصالات، وحوكمة الصلاحيات، واستدعاء الأدوات عبر منصات مختلفة، وتحسين نقل البيانات، والدفع/المدفوعات للمعاملات، وإدارة الأمان… إلخ.

في الوقت الحالي، بدأت بعض الشركات بالفعل في الدفع نحو هذا الاتجاه؛ مثل Cloudflare التي أطلقت Markdown for Agents ليسهل على الوكلاء قراءة صفحات الويب، وGoogle التي أطلقت WebMCP لربط بيئة المتصفح بالموارد الحاسوبية المحلية… لكن بشكل عام، ما يزال هذا الاتجاه في مرحلة مبكرة من التطور، وما زال مزودو Agent Internet Infra من الجيل الجديد في عداد المفقودين.

إنترنت مخصصة للـAgent

كيف توفر المال والوقت؟

في اتجاه Agent Internet Infra، لدى منطق بدء التشغيل لدى ليو هونغتاو وآخرين نقطة ارتكاز أساسية: منذ اليوم الأول التعامل مع الـAgent بوصفه المستخدم الأساسي للشبكة، أي end user (كان المفهوم سابقًا افتراضيًا أن end user هم البشر). وهذا يتماشى مع حكم كارباثي.

بمجرد تثبيت هذا الافتراض، يتحول اتجاه تحسين البنية التحتية للشبكة من «خدمة تجربة البشر» إلى «خدمة معدل إنجاز المهام وكفاءتها»، ومن «توفير اتصال المنصة» إلى «تحمل المسؤولية عن النتائج». أي أنهم يفكرون في المقام الأول: هل يمكن لـ «روبيكس» الخاص بك إنجاز المهام عبر منصتي بجودة عالية وموثوقية عالية وكفاءة عالية، وأنا سأتحمل مسؤولية نتيجتك، وسأوفر لك المال والوقت.

الأهم من ذلك أن هذا لم يقتصر على مستوى المفهوم، بل انعكس مباشرة في قرارات المنتج.

أوضح مثال هو أنهم تعمّدوا ألا يقدموا واجهات موجهة للبشر، وألا يقوموا بتقديم تجربة تطوير معقدة للمطورين؛ بل ما يفعلونه هو فقط توفير واجهات Agent موحّدة (standardized) كمدخلات. وهذا وراءه حكم راسخ جدًا: المستقبل ليس أن يقوم المطورون بضبط الأدوات، بل أن يقوم الـAgent هو نفسه بتركيب الأدوات. إذا كنت تؤمن بذلك، فإن أي طبقات صُممت من أجل «سهولة تشغيل الإنسان» ستكون مجرد مرحلة انتقالية قصيرة الأجل.

فكيف جعلوا «الجودة العالية والموثوقية العالية» نقطة تميز؟ هنا يمكن تقسيمها إلى ثلاث طبقات من المكدس التقني.

الطبقة الوسطى: ينقلون مشكلة «جودة الأدوات» من جهة الـAgent إلى جهة المنصة. إن النهج السائد حاليًا هو جعل الـAgent هو من يختار الأدوات ويتجربها عبر التجربة والخطأ، مستخدمًا المزيد من token لملء الثغرات. والنتيجة هي تكلفة مرتفعة، ومعدل نجاح منخفض، وغير قابل للضبط. في هذه الطبقة، تولوا الأمر بأنفسهم: أنشأوا للـAgent «بوابة واحدة» للوصول إلى الخدمات الخارجية. أي أن الـAgent لا يحتاج إلى معرفة أي أدوات أفضل؛ فالمنصة اختارت له بالفعل ووفرت ضمانًا بديلًا، وبمجرد حدوث عطل سيتم التحويل فورًا. كما يتم أيضًا إجراء التسوية بشكل موحد هنا؛ جميع البيانات شفافة. ويمكن لِمن يقف خلف الـAgent أن يرى أي أدوات تم استخدامها وعدد مرات الاستدعاء، وأن يرى بوضوح كيفية صرف token. لم يعد هناك «ثقب أسود» يبتلع الأموال.

أما الطبقة التي فوقها، فهي تركز على ضمان الجودة المبكرة باستخدام منطق «التشغيل الذاتي» (self-operated logic). لم يكونوا منذ البداية يفتحون النظام البيئي؛ بل كانوا هم من يختار الأدوات، ويؤكدون على الاستقرار والفعالية والجودة العالية—تمامًا مثل متاجر JD ذاتية التشغيل في المراحل الأولى، حيث كان الهدف الرئيسي مساعدة «روبيكس» على إكمال المهام بجودة عالية. وبعد توليد حركة مرور/تدفق، سيقومون أيضًا بفتح دخول الأطراف الثالثة، ويستخدمون خوارزمية لتوصية الأدوات مبنية على نموذج كبير (large model) واستراتيجية تحسين الاستدعاء لجعل هذه العملية شديدة الذكاء.

أما الطبقة السفلية—وهي الأكثر صرامة—فهي أن «الاعتمادية» يتم نقلها إلى طبقة النقل، عبر بروتوكول جدولة متكامل (trans - store - compute) من تصميمهم لتسريع نقل البيانات في الطبقة الأساسية.

في اختبارات البيئة الحقيقية، فإن هذا البروتوكول يكون أسرع بـ2–10 مرات من أفضل بروتوكول مفتوح المصدر حاليًا في الصناعة—QUIC من Google. ووفقًا لاختبارات حديثة، وصل حتى إلى عشرات المرات. أي أنه إذا أراد Agent نقل ملفات أو صور أو فيديو من جهاز بعيد، خصوصًا ذلك المحتوى المخصص الذي تم توليده للتو، فإن هذا البروتوكول سيكون أسرع بكثير من الطريقة التقليدية.

قد يعرف المتخصصون في المجال أن البروتوكولات هي مجموعة من قواعد متسقة مع نفسها؛ لذلك فإن تطوير بروتوكول ليس عملًا قصير المدى يمكن تقسيمه والتقدم فيه بالتوازي كما في كتابة APP. ابتكار بروتوكول يشبه تربية نوع جديد من الكائنات: يبدأ من بذرة ثم ينمو تدريجيًا وفق ترتيب محدد. يجب أن ينتظر كل حلقة أن تستقر تمامًا الحلقة السابقة قبل أن تبدأ. حتى لو جمعنا عددًا أكبر من المهندسين، لا يمكنهم ضغط وقت «انتظار نموه». علاوة على ذلك، تتضمن تصميمات البروتوكول معارف ضمنية—مثل الحالات الطرفية (edge cases) لسلوك الشبكة والأخطاء التي تم تجاوزها—ولا يمكن جمعها إلا من خلال ترسيخ طويل. قال ليو هونغتاو إن بروتوكولهم هذا لم يتم إنجازه بين ليلة وضحاها؛ فدورات التطوير تُحسب بعشرات السنين. وكانت خبرات التراكم الأولى في الأساس لتحسين TCP/IP، ولم يخطر ببالهم يومًا أن تتحول لاحقًا إلى حاجز تقني أساسي في الشركة.

سقف هذه المسألة

قد يكون أعلى بكثير مما تتخيل

في عصر إنترنت الكمبيوتر والإنترنت عبر الهاتف المحمول، غالبًا ما يُنظر إلى نمو عدد مستخدمي الإنترنت ووقت تصفح كل مستخدم باعتبارهما الدافع الأساسي لنمو السوق. لكن مع اقتراب الاثنين من حدودهما، وصل هذا النوع من النمو إلى نهايته.

ظهور المسار الجديد Agent Internet يعيد كتابة قواعد اللعبة. يمكن لشركة واحدة أو لشخص واحد نشر مئات أو آلاف الوكلاء (Agent)، ويمكن لكل Agent تشغيل عدة مهام في الوقت نفسه، كما أن هؤلاء الوكلاء لا يحتاجون إلى النوم. وهذا يعني أن الحد الأعلى من حركة المرور والقيمة التي يتحملها Agent Internet Infra لا يمكن تقديره بدقة حاليًا.

وهذا يعني أيضًا أن هذه الطبقة قد تلد بسهولة مجموعة من الشركات العملاقة الجديدة. عند النظر إلى الوراء في إنترنت الكمبيوتر والإنترنت عبر الهاتف المحمول، نجد أن كل طبقة بنية تحتية تقريبًا خرجت في النهاية شركات مستقلة، لأن المشكلات كانت عامة كفاية والاحتياجات كانت قوية بما يكفي، وسيفتح الباب في النهاية لظهور من يحولها إلى منصة. وAgent Internet ليس استثناءً. بل في هذه المرة، فإن حجم المستخدمين وشدة الاستدعاء أكثر تطرفًا، وكثير من المشكلات الأساسية ما تزال صفحة بيضاء، والمساحات المتاحة تكون أكبر بدل أن تضيق.

في المرحلة الحالية التي انطلقت للتو، تمكن AgentEarth من احتلال موقع جيد نسبيًا.

من جهة، كان الحكم مبكرًا وحاسمًا: منذ البداية بناء النظام على أساس أن «Agent هو المستخدم»، مع التركيز على الإنجاز عالي الموثوقية وعالي الجودة لمهام Agent. ومن جهة أخرى، بنية الفريق أقل شيوعًا: قدرات البروتوكول في الطبقة الأساسية يصعب اللحاق بها خلال وقت قصير؛ والأشخاص الذين خاضوا المعارك في سيناريوهات مثل «مئات الملايين من المستخدمين والمطابقة الفورية لموارد هائلة» نادرون جدًا. تتطلب مثل هذه الأنظمة متطلبات شديدة التطرف للاستقرار والكفاءة وتحمل الأعطال. وفي العادة، لا توجد فرص كثيرة للتدريب على هذا. بمجرد أن يتصاعد حجم استدعاءات Agent، تصبح هذه الخبرة ذات قيمة كبيرة، ولا يمكن تعويضها خلال وقت قصير.

وفي الأمس فقط، أطلقت AgentEarth نسخة تجريبية من منتجها وبدأت اختبارها على نطاق صغير. رابط الاختبار كالتالي: Agentearth.ai

يمكن أيضًا للقراء المهتمين مسح الرمز للدخول إلى المجموعة والتواصل حول تجربة الاستخدام:

كمية هائلة من المعلومات، وتحليل دقيق، كل ذلك متاح عبر تطبيق Sina Finance

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.25Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • القيمة السوقية:$2.25Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.28Kعدد الحائزين:1
    0.00%
  • تثبيت