قوقل تقترح منهجية تقييم مستمرة للهندسة لمواجهة تحديات تقييم بيئة إنتاج وكلاء الذكاء الاصطناعي

robot
إنشاء الملخص قيد التقدم

أخبار ME: في 4 أبريل (UTC+8)، ذكرت GoogleCloudTech مؤخرًا في منشور لها أن الاعتماد في بيئات الإنتاج على الدردشة اليدوية والإحساسات الذاتية (أي “فحص الأجواء”) لتقييم وكلاء الذكاء الاصطناعي غير موثوق وقد يؤدي إلى كوارث. وتعتقد المقالة أن الخصائص الاحتمالية للذكاء الاصطناعي التوليدي تجعل أي تغييرات صغيرة في موجهات الإدخال أو في أوزان النموذج قد تُسبب تدهورًا كبيرًا في الأداء. ولحل هذه المشكلة، تقترح المقالة نهجًا هندسيًا يُطبَّق عليه التقييم المستمر (CE). يميّز هذا النهج بين نمطين لهندسة الذكاء الاصطناعي: نمط الاستكشاف (المختبر) ونمط الدفاع (المصنع). يركز نمط الاستكشاف على استكشاف إمكانات النموذج عبر عدد قليل من الأمثلة و"فحوص الأجواء"؛ بينما يركز نمط الدفاع على الثبات، من خلال التقييم المستند إلى مجموعات بيانات، والبوابات الصارمة، ومقاييس الأتمتة لضمان أن يحقق النظام أهداف مستوى الخدمة (SLO). تحذر المقالة من أن العديد من الفرق تظل لفترة طويلة عالقة في نمط الاستكشاف. كما تقدم مثالًا بنظام متعدد وكلاء موزع (نظام منشئ الدورات) مبني على Cloud Run وبروتوكول Agent2Agent، وتوضح كيف يُمكن تطبيق نمط الدفاع لتحقيق نشر موثوق وقابل للتوسع من مستوى الإنتاج لذكاء اصطناعي، وذلك عبر الالتزام بمبدأ فصل الاهتمامات واستخدام وكلاء متخصصين (مثل الباحث، والقاضي، وبنّاء المحتوى، والمنسق). (المصدر: InFoQ)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:0
    0.00%
  • القيمة السوقية:$2.23Kعدد الحائزين:1
    0.00%
  • تثبيت