وكلاء الذكاء الاصطناعي للمؤسسات بحاجة إلى اختبارات ضغط، وليس عروض مبيعات

SleepTrader

2026-04-02 05:42:09

أبهشيك ساكسينا، رئيس الاستراتيجية والنمو، سنتيانت.

تتحرك تقنية فين تك بسرعة. الأخبار في كل مكان، لكن الوضوح ليس كذلك.

يوفّر فين تك ويكلي أهم القصص والأحداث في مكان واحد.

انقر هنا للاشتراك في النشرة الإخبارية لـ FinTech Weekly

يقرأها التنفيذيون في JP Morgan وCoinbase وBlackRock وKlarna وغيرهم.

تواجه الذكاء الاصطناعي المؤسسي مشكلة ثقة لا يمكن حلّها بأي قدر من التسويق. بدأت الشركات في نشر وكلاء ذوي استقلالية داخل بيئات الإنتاج، حيث قد تؤدي أي عملية قرار سيئة واحدة إلى مخالفة امتثال، أو فشل في الدفع، أو خطأ في التداول، أو خسارة مالية، أو أزمة تتعلق بالسمعة. ومع ذلك، لا تزال المعايير الصناعية لتقييم ما إذا كان الوكيل جاهزًا للإنتاج فعليًا هي عرض تقديمي يبدو مثيرًا للإعجاب على المسرح.

إطلاق Nvidia لـ NemoClaw هذا الأسبوع يشير إلى مدى سرعة انتقال الوكلاء ذوي الاستقلالية من التجارب إلى سير عمل المؤسسة. تضيف المنصة ضوابط مهمة للأمان والخصوصية، بما في ذلك العزل (sandboxing) وقيود الحوكمة (policy guardrails). لكن النشر الآمن ليس هو الشيء نفسه مثل جاهزية الإنتاج. السؤال الأكثر صعوبة هو ما إذا كانت هذه الأنظمة قد اختُبرت لتعمل بشكل موثوق في ظل الغموض، وحالات الحواف، والضغط التنظيمي.

إن بناء وكيل يستطيع إكمال مهمة داخل بيئة مُتحكَّم بها أمرٌ نسبيًا بسيط. أمّا بناء وكيل يستطيع التعامل مع الغموض، والقدرة على التعافي من المدخلات غير المتوقعة، والحفاظ على الاتساق عبر آلاف التفاعلات المتزامنة، والقيام بكل ذلك دون انتهاك القيود التنظيمية، فهذا يمثل تحديًا هندسيًا مختلفًا تمامًا.

في هذا الفارق تقع المشكلات التي تصطدم بها العديد من عمليات النشر على مستوى المؤسسة. الفجوة بين أداء العرض التجريبي وموثوقية الإنتاج أوسع مما تتوقعه معظم الفرق.

قد يتعامل وكيل مع استفسار دعم العملاء بدقة تامة في الاختبارات، لكنه قد يختلق سياسة استرداد لا وجود لها عندما يواجه حالة طرفية لم يَرها من قبل. قد ينجح وكيل يدير سير عمل مالية بشكل مثالي على البيانات التاريخية لكنه يتخذ قرارات كارثية عندما تتغير ظروف السوق خارج نطاق التدريب الخاص به. قد ينجح وكيل لوجستيّات ينسّق سلسلة الإمداد في المحاكاة، لكنه يتعثر عندما تبدأ التأخيرات في العالم الحقيقي والإشارات المتضاربة بالتراكم.

أي شخص اختبر الوكلاء في بيئات اختبار خصومية (adversarial testing) سيتعرّف بسرعة على هذه الأنماط. تعمل الأنظمة—إلى أن تواجه نوع الغموض والضغط اللذين يحددان العمليات الحقيقية.

ولهذا السبب يفشل التركيز الحالي في الصناعة على بناء المزيد من أطر عمل للوكلاء في التقاط عنصر حاسم في أحجية المشكلة. عنق الزجاجة الحقيقي ليس مدى سرعة تمكن الشركات من إنشاء الوكلاء. بل هو مدى قدرتها على تقييمهم بثقة قبل منحهم مسؤولية حقيقية.

ما يحتاجه الذكاء الاصطناعي المؤسسي هو بنية تحتية صارمة ومنهجية لاختبارات الضغط مُصمَّمة تحديدًا للأنظمة المستقلة. وهذا يعني إدخال أنواع المدخلات عمدًا التي تكسر الوكلاء في الإنتاج. وهذا يعني تقييم سلوك الوكلاء تحت عدم اليقين، والمعلومات المتضاربة، وحالات الحواف التي لا تظهر في مجموعات بيانات معيارية نظيفة. وهذا يعني تقييمًا مستمرًا، لا اختبارًا لمرة واحدة قبل الإطلاق.

إن نهج NemoClaw مفتوح المصدر خطوة في الاتجاه الصحيح لأنه يمنح المطورين رؤية لكيف تعمل الوكلاء. لا يمكنك اختبار صندوق أسود بشكل صحيح. لكن الرؤية وحدها ليست كافية. يجب أن تتطور بنية الاختبار نفسها جنبًا إلى جنب مع الأنظمة التي تقيمها.

ينبغي أن تفترض عملية تطوير الوكلاء أن أنماط الفشل حتمية وأن يتم كشفها مبكرًا. ليست الغاية إثبات أن الوكيل يعمل مرة واحدة، بل فهم كيف يتصرف عندما تصبح الظروف غير قابلة للتنبؤ. يغيّر هذا المنظور طريقة تقييم الوكلاء، وكيفية تصميم القيود (guardrails)، وكيفية تجهيز الأنظمة للنشر في بيئات عالية المخاطر.

ستزداد المخاطر فقط مع انتقال الوكلاء من مهام معزولة إلى سير عمل متكامل من طرف إلى طرف. تستكشف المؤسسات بالفعل وكلاء للتفاوض بشأن العقود، وتنفيذ المعاملات المالية، وتنسيق سلاسل الإمداد، وإدارة عمليات تشغيلية معقدة. عندما تعمل هذه الأنظمة عبر نقاط متعددة لاتخاذ القرار، فإن أثر خطأ واحد يمكن أن يتصاعد بسرعة إلى سلسلة من الآثار.

وكيل دعم العملاء الذي يفشل يفقد تذكرة. وكيل مالي يفشل قد يفقد رأس المال. وكيل تشغيلي يفشل قد يسبب تأخيرًا لسلسلة إنتاج كاملة.
لن تكون الشركات التي تنجح في نهاية المطاف مع الذكاء الاصطناعي المؤسسي هي تلك التي نشرت الوكلاء أولًا. بل ستكون تلك التي نشرت وكلاء يمكن الوثوق بها فعلًا.

الثقة ليست ميزة تضيفها في نهاية التطوير. إنها تخصص هندسي—يبدأ بالطريقة التي تُختبر بها الأنظمة، وبكيفية تقييم سلوكها تحت الضغط، وبفهم أنماط فشلها قبل وقت طويل من أن تلمس أي حمل إنتاجي.

تمنح Nvidia الشركات أدوات قوية لبناء وكلاء ذوي استقلالية. والسؤال الأكثر صعوبة—والذي سيحدد ما إذا كانت هذه الأنظمة ستنجح في العالم الحقيقي—هو ما إذا كانت المؤسسات تستثمر بشكل متساوٍ في البنية التحتية اللازمة لإثبات جاهزية تلك الوكلاء.

عن المؤلف

أبهشيك ساكسينا هو رئيس الاستراتيجية والنمو في سنتيانت، وهي منصة ذكاء اصطناعي مفتوحة المصدر تبني البنية التحتية اللازمة لوكلاء ذوي استقلالية موثوقين. سبق أن شغل أبهشيك مناصب في Polygon Technology وApple وInMobi، ويحمل درجة MBA من كلية هارفارد للأعمال.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.