قوقل تقترح منهجية تقييم مستمرة للهندسة لمواجهة تحديات تقييم بيئة إنتاج وكلاء الذكاء الاصطناعي

MeNews · 2026-04-04T22:55:51+00:00

أشار GoogleCloudTech مؤخرًا إلى أن الاعتماد على التقييم الذاتي للوكيل الذكي (AI) يعتمد على الحكم الشخصي غير موثوق به، وقد يؤدي إلى مشاكل. تدعو المقالة إلى منهجية تقييم مستمرة، مع التمييز بين وضع الاستكشاف ووضع الدفاع، مع التركيز على وضع الدفاع الذي يركز على الاستقرار، لتحقيق نشر موثوق للذكاء الاصطناعي.

MeNews

2026-04-04 22:55:51

إنشاء الملخص قيد التقدم

أخبار ME ، رسالة في 4 أبريل (UTC+8). في الآونة الأخيرة، نشرت GoogleCloudTech منشورًا يشير إلى أن الاعتماد في بيئة الإنتاج على الدردشة اليدوية والانطباعات الذاتية (أي “فحص الأجواء”) لتقييم وكلاء الذكاء الاصطناعي غير موثوق، وقد يؤدي إلى كارثة. ترى المقالة أن الخصائص الاحتمالية للذكاء الاصطناعي التوليدي تجعل أي تغييرات طفيفة في المطالبات أو أوزان النموذج قد تسبب تدهورًا كبيرًا في الأداء. ولحل هذه المشكلة، تقترح المقالة منهجًا هندسيًا لتطبيق التقييم المستمر (CE). يميز هذا المنهج بين نمطين لهندسة الذكاء الاصطناعي: نمط الاستكشاف (في المختبر) ونمط الدفاع (في المصنع). يركز نمط الاستكشاف على البحث عن إمكانات النموذج عبر عدد قليل من الأمثلة و"فحص الأجواء". بينما يركز نمط الدفاع على الاستقرار، وذلك من خلال التقييمات القائمة على مجموعة بيانات، وبوابات صارمة، ومؤشرات آلية لضمان تلبية النظام لأهداف مستوى الخدمة (SLO). تحذر المقالة من أن العديد من الفرق قد تبقى لفترة طويلة في نمط الاستكشاف. كما تقدم المقالة مثالًا على نظام متعدد الوكلاء موزع مبنيًا على Cloud Run وبروتوكول Agent2Agent (نظام منشئي الدروس)، لتوضيح تطبيق نمط الدفاع من خلال الالتزام بمبدأ فصل الاهتمامات ووكلاء متخصصين (مثل الباحث، والقاضي، وباني المحتوى، والمنسق) من أجل تحقيق نشر موثوق وقابل للتوسع على مستوى الإنتاج للذكاء الاصطناعي. (المصدر: InFoQ)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 1