أطلقت LangSmith أكثر من 30 نموذج تقييم، ولم يعد من الضروري بدء اختبار جودة الوكيل الذكي من الصفر

robot
إنشاء الملخص قيد التقدم
أخبار ME News، في 17 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察Beating، أطلقت منصة تطوير الوكيل الذكي المعتمد على الذكاء الاصطناعي LangChain أداة المراقبة LangSmith تحديثين: مكتبة قوالب التقييم والمقيم القابل لإعادة الاستخدام.
تقييم مدى «فاعلية» وكيل الذكاء الاصطناعي هو أحد أكثر المراحل استهلاكًا للوقت في عملية التطوير حاليًا.
قد يستدعي الوكيل الأدوات الصحيحة لكن بصيغة إجابة غير مناسبة، أو يكون الحوار الأحادي طبيعيًا لكن يتعطل في المحادثات متعددة الأدوار، أو تكون الإجابة النهائية معقولة لكن تم استرجاع مستندات خاطئة خلال الخطوات الوسيطة.
يحتاج المطورون إلى وضع نقاط فحص على مستويات متعددة مثل خطوة واحدة، مسار كامل، محادثة متعددة الأدوار، استدعاء أدوات محددة، وكل تقييم يمر بكتابة التعليمات، ومعايرتها مقابل البيانات الحقيقية، وتحسينها بشكل متكرر، وغالبًا ما يستغرق الأمر أسابيع من البداية.
تقدم LangSmith الآن أكثر من 30 قالبًا جاهزًا، تغطي خمسة فئات: الأمان والحماية (كشف حقن التعليمات، فحص تسرب المعلومات الشخصية، التحيز والسمية)، جودة الإجابة (الصحة، الفائدة، النغمة)، مسار التنفيذ (هل اتبع الوكيل الخطوات الصحيحة)، تحليل سلوك المستخدم (توزيع اللغة، إشارات الرضا)، والوسائط المتعددة (مراجعة إخراج الصوت والصورة).
تحتوي القوالب على تعليمات تقييم محسنة لنماذج اللغة الكبيرة (LLM) وأكواد تقييم قائمة على القواعد، يمكن استخدامها مباشرة أو تعديلها حسب الحاجة، وتناسب المراقبة عبر الإنترنت والتجارب غير المتصلة.
أما المقيم القابل لإعادة الاستخدام فهو يحل مشكلة إدارة المستويات التنظيمية:
تبويب Evaluators الجديد يعرض جميع المقيمين في مساحة العمل بشكل مركزي، ويمكن ربطه بمشروع جديد بنقرة واحدة، وتحديث التعليمات ليصبح ساري المفعول على مستوى العالم، دون الحاجة لصيانة نسخ مكررة في كل مشروع.
تم إصدار القوالب المذكورة أعلاه كمصدر مفتوح مع إصدار openevals v0.2.0، مع دعم تقييم الوسائط المتعددة الجديد.
(المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 8
  • 6
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
VineGeometry
· منذ 4 د
لقد كتبت سابقًا تقييم المسار بشكل مماثل، وعندما يتم إصدار الحل الرسمي يمكن نقله، مما يوفر تكاليف الصيانة.
شاهد النسخة الأصليةرد0
GateUser-4bd1cc87
· منذ 2 س
أخيرًا أصبح هناك خطة موحدة للتقييم متعدد المستويات، مما يخفف من مشكلة عدم توافق معايير كل فرد في الفريق.
شاهد النسخة الأصليةرد0
MempoolDrifter
· منذ 2 س
نموذج تحليل سلوك المستخدم ممتع قليلاً، وأخيرًا يمكنني أن أرى بشكل منهجي كيف يتم استخدام الوكيل.
شاهد النسخة الأصليةرد0
GateUser-5578154d
· منذ 2 س
ميزة التوصيل بنقرة واحدة للمشروع الجديد، رائعة جدًا بالنسبة لنا الذين ندير العديد من المشاريع بشكل متزامن
شاهد النسخة الأصليةرد0
MistValleyFront
· منذ 2 س
قوالب الأمان والحماية ضرورية جدًا، وأهم شيء يقلقنا قبل إطلاق وكيل الذكاء الاصطناعي هو هذا الجانب
شاهد النسخة الأصليةرد0
MorningGoldAsWavesCrashAgainst
· منذ 2 س
علامة التقييمات، هذا المدخل مصمم بشكل بديهي، وليس من الصعب العثور عليه
شاهد النسخة الأصليةرد0
PermissionedFury
· منذ 2 س
إصدار openEvals 0.2.0 مفتوح المصدر يحظى بتقييم جيد، والمشاركة المجتمعية أفضل بكثير من العمل في عزلة
شاهد النسخة الأصليةرد0
GateUser-176c498f
· منذ 2 س
تحديث LangSmith هذا مفيد جدًا، كانت كتابة المقيم سابقًا مزعجة حقًا، الآن ببساطة تطبيق النموذج يوفر الكثير من الجهد
شاهد النسخة الأصليةرد0
  • مُثبت