أطلقت LangSmith أكثر من 30 نموذج تقييم، ولم يعد من الضروري بدء اختبار جودة الوكيل الذكي من الصفر

أخبار ME News، في 17 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察Beating، أطلقت منصة تطوير الوكيل الذكي المعتمد على الذكاء الاصطناعي LangChain أداة المراقبة LangSmith تحديثين: مكتبة قوالب التقييم والمقيم القابل لإعادة الاستخدام.
يعد تقييم مدى «سهولة استخدام» الوكيل الذكي أحد أكثر المراحل استهلاكًا للوقت في عملية التطوير حاليًا.
قد يستدعي الوكيل الأدوات الصحيحة لكن بصيغة إجابة غير مناسبة، أو يكون الحوار الأحادي طبيعيًا لكن يتعطل في المحادثات متعددة الأدوار، أو تكون الإجابة النهائية معقولة لكن تم استرجاع مستندات خاطئة خلال الخطوات الوسيطة.
يحتاج المطورون إلى وضع نقاط فحص على مستويات متعددة: خطوة واحدة، مسار كامل، محادثة متعددة الأدوار، استدعاء أدوات محددة، وكل تقييم يمر بكتابة موجهات، ومعايرة باستخدام بيانات حقيقية، وتحسين متكرر، وغالبًا ما يستغرق الأمر أسابيع من الصفر.
تقدم LangSmith الآن أكثر من 30 قالب جاهز، تغطي خمسة فئات: الأمان والحماية (كشف حقن التعليمات، فحص تسرب المعلومات الشخصية، التحيز والسمية)، جودة الإجابة (الصحة، الفائدة، النغمة)، مسار التنفيذ (هل اتبع الوكيل الخطوات الصحيحة)، تحليل سلوك المستخدم (توزيع اللغة، إشارات الرضا)، متعدد الوسائط (مراجعة إخراج الصوت والصورة).
تحتوي القوالب على موجهات تقييم محسنة لنماذج اللغة الكبيرة (LLM) وأكواد تقييم قائمة على القواعد، يمكن استخدامها مباشرة أو تعديلها، وتناسب المراقبة عبر الإنترنت والتجارب غير المتصلة.
أما المقيم القابل لإعادة الاستخدام فهو يحل مشكلة إدارة المستويات التنظيمية:
تبويب Evaluators الجديد يعرض جميع المقيمين في مساحة العمل بشكل مركزي، ويمكن ربطه بنقرة واحدة بمشروع جديد، وتحديث الموجهات ليصبح ساري المفعول على مستوى العالم، دون الحاجة لصيانة نسخ مكررة في كل مشروع.
تم إصدار القوالب المذكورة أعلاه كمصدر مفتوح مع إصدار openevals v0.2.0، مع دعم تقييم متعدد الوسائط الجديد.
(المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 7
  • 12
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
DegenWithNotebook
· منذ 3 س
مكتبة قوالب المقيم + المقيم القابل لإعادة الاستخدام، المزيج يركز على كفاءة التطوير
شاهد النسخة الأصليةرد0
OutsiderOfZhiyuandao
· منذ 4 س
مراقبة Beating تتقدم بسرعة، ونظام بيئة LangChain يزداد نشاطًا أكثر فأكثر
شاهد النسخة الأصليةرد0
StargazerInTheWoods
· منذ 4 س
فكرة تصميم المقيم القابل لإعادة الاستخدام جيدة، فهي تساعد على تجنب إعادة اختراع العجلة.
شاهد النسخة الأصليةرد0
QuietValidator
· منذ 4 س
العد من الصفر أسبوعيًا مقابل القوالب الجاهزة، هذا المقارنة مؤلمة بعض الشيء
شاهد النسخة الأصليةرد0
AirdropDreamsInAGlassBottle
· منذ 4 س
انهيار المحادثات المتعددة الدورات أصبح واقعيًا جدًا، أخيرًا هناك من يحل المشكلة بجدية
شاهد النسخة الأصليةرد0
Don’tRushToDoubleItYet.
· منذ 4 س
هل يمكن لأكثر من 30 قالب أن يوفر عدة أسابيع من الوقت؟ سأراقب التأثير الفعلي أولاً
شاهد النسخة الأصليةرد0
MirrorBallPeeking
· منذ 4 س
تحديث LangSmith هذا حقًا استهدف النقاط المؤلمة، تقييم وكلاء الذكاء الاصطناعي كان مرهقًا جدًا
شاهد النسخة الأصليةرد0
  • مُثبت