قوقل تقترح منهجية تقييم مستمرة للهندسة لمواجهة تحديات تقييم بيئة إنتاج وكلاء الذكاء الاصطناعي

robot
إنشاء الملخص قيد التقدم

رسالة ME News، 4 أبريل (UTC+8)، أشارت GoogleCloudTech مؤخرًا إلى أنه في بيئات الإنتاج الاعتماد على المحادثات اليدوية والإحساسات الذاتية (أي “فحص الأجواء”) لتقييم وكلاء الذكاء الاصطناعي ليس أمرًا موثوقًا، وقد يؤدي إلى كوارث. ترى المقالة أن الخصائص الاحتمالية للذكاء الاصطناعي التوليدي تعني أن أي تغييرات طفيفة في التوجيه (prompt) أو في أوزان النموذج قد تؤدي إلى تدهور كبير في الأداء. ولحل هذه المشكلة، يقترح المقال نهجًا هندسيًا لتطبيق التقييم المستمر (CE). وتُميّز هذه الطريقة بين وضعين لهندسة الذكاء الاصطناعي: وضع الاستكشاف (في المختبر) ووضع الدفاع (في المصنع). يركز وضع الاستكشاف على البحث عن إمكانات النموذج عبر عدد قليل من الأمثلة وعمليات فحص الأجواء؛ بينما يركز وضع الدفاع على الثبات، من خلال التقييمات المستندة إلى مجموعة بيانات، وبوابات الضبط الصارمة، ومؤشرات آلية لضمان أن يحقق النظام أهداف مستوى الخدمة (SLO). تحذر المقالة من أن العديد من الفرق تبقى لفترة طويلة في وضع الاستكشاف. وتستشهد المقالة أيضًا بنظام متعدد الوكلاء الموزع (نظام منشئي الدورات) المُنشأ عبر Cloud Run وبروتوكول Agent2Agent، لتوضح تطبيقات وضع الدفاع من خلال الالتزام بمبدأ فصل الاهتمامات ووكلاء متخصصين (مثل الباحث، القاضي، منشئ المحتوى، والمنسق) بما يتيح نشرًا موثوقًا وقابلًا للتوسع على مستوى الإنتاج للذكاء الاصطناعي. (المصدر: InFoQ)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.25Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.25Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.25Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.31Kعدد الحائزين:2
    0.25%
  • القيمة السوقية:$2.26Kعدد الحائزين:1
    0.00%
  • تثبيت