قوقل تقترح منهجية تقييم مستمرة للهندسة لمواجهة تحديات تقييم بيئة إنتاج وكلاء الذكاء الاصطناعي

robot
إنشاء الملخص قيد التقدم

أخبار ME ، رسالة في 4 أبريل (UTC+8). في الآونة الأخيرة، نشرت GoogleCloudTech منشورًا يشير إلى أن الاعتماد في بيئة الإنتاج على الدردشة اليدوية والانطباعات الذاتية (أي “فحص الأجواء”) لتقييم وكلاء الذكاء الاصطناعي غير موثوق، وقد يؤدي إلى كارثة. ترى المقالة أن الخصائص الاحتمالية للذكاء الاصطناعي التوليدي تجعل أي تغييرات طفيفة في المطالبات أو أوزان النموذج قد تسبب تدهورًا كبيرًا في الأداء. ولحل هذه المشكلة، تقترح المقالة منهجًا هندسيًا لتطبيق التقييم المستمر (CE). يميز هذا المنهج بين نمطين لهندسة الذكاء الاصطناعي: نمط الاستكشاف (في المختبر) ونمط الدفاع (في المصنع). يركز نمط الاستكشاف على البحث عن إمكانات النموذج عبر عدد قليل من الأمثلة و"فحص الأجواء". بينما يركز نمط الدفاع على الاستقرار، وذلك من خلال التقييمات القائمة على مجموعة بيانات، وبوابات صارمة، ومؤشرات آلية لضمان تلبية النظام لأهداف مستوى الخدمة (SLO). تحذر المقالة من أن العديد من الفرق قد تبقى لفترة طويلة في نمط الاستكشاف. كما تقدم المقالة مثالًا على نظام متعدد الوكلاء موزع مبنيًا على Cloud Run وبروتوكول Agent2Agent (نظام منشئي الدروس)، لتوضيح تطبيق نمط الدفاع من خلال الالتزام بمبدأ فصل الاهتمامات ووكلاء متخصصين (مثل الباحث، والقاضي، وباني المحتوى، والمنسق) من أجل تحقيق نشر موثوق وقابل للتوسع على مستوى الإنتاج للذكاء الاصطناعي. (المصدر: InFoQ)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.24Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.25Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.25Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.25Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:2
    0.00%
  • تثبيت