LangSmith déploie plus de 30 modèles d’évaluation, la vérification de la qualité des agents IA n’a plus besoin d’être écrite à partir de zéro

ME News Actualités, le 17 avril (UTC+8), selon la surveillance de Dongcha Beating, l'outil d'observabilité de la plateforme de développement d'agents IA LangChain a publié deux mises à jour : une bibliothèque de modèles d’évaluation et un évaluateur réutilisable.
Évaluer si un agent IA est « pratique » est actuellement l'une des étapes les plus chronophages du développement.
L'agent peut appeler le bon outil mais avec un format de réponse incorrect, une conversation à un seul tour peut fonctionner normalement mais échouer en multi-tours, ou la réponse finale semble raisonnable mais les étapes intermédiaires ont recherché les mauvais documents.
Les développeurs doivent définir des points de contrôle à différents niveaux : étape unique, trajectoire complète, conversation multi-tours, appel d'outils spécifiques, etc., et chaque évaluateur doit passer par la rédaction de prompts, la calibration avec des données réelles, et un ajustement répété, ce qui peut prendre plusieurs semaines en partant de zéro.
LangSmith propose désormais plus de 30 modèles prêts à l’emploi, couvrant cinq catégories : sécurité et protection (détection d'injection de prompts, vérification de fuite d’informations personnelles, biais et toxicité), qualité des réponses (exactitude, utilité, ton), trajectoire d'exécution (si l’agent a suivi les bonnes étapes), analyse du comportement utilisateur (distribution linguistique, signaux de satisfaction), multimodal (examen des sorties audio et image).
Les modèles incluent des prompts d’évaluation optimisés pour LLM et des évaluateurs basés sur des règles, utilisables directement ou modifiables, adaptés à la surveillance en ligne et aux expérimentations hors ligne.
Les évaluateurs réutilisables résolvent les problèmes de gestion organisationnelle : l’onglet Evaluators nouvellement ajouté affiche tous les évaluateurs du workspace, permet de les attacher en un clic à de nouveaux projets, et après mise à jour des prompts, ils prennent effet globalement sans nécessiter de maintenir des copies redondantes dans chaque projet.
Les modèles mentionnés sont open source et seront intégrés dans la version 0.2.0 d’OpenEvals, avec un support accru pour l’évaluation multimodale.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 7
  • 11
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
DegenWithNotebook
· Il y a 2h
Bibliothèque de modèles d’évaluateurs + évaluateurs réutilisables, la combinaison vise à améliorer l’efficacité du développement
Voir l'originalRépondre0
OutsiderOfZhiyuandao
· Il y a 3h
La surveillance de Beating est assez rapide, l'écosystème LangChain devient de plus en plus actif.
Voir l'originalRépondre0
StargazerInTheWoods
· Il y a 3h
L'idée de conception d'un évaluateur réutilisable est bonne, elle évite de réinventer la roue
Voir l'originalRépondre0
QuietValidator
· Il y a 3h
Compter à partir de zéro contre un modèle prêt à l'emploi, cette comparaison fait un peu mal au cœur
Voir l'originalRépondre0
AirdropDreamsInAGlassBottle
· Il y a 3h
L'effondrement des conversations à plusieurs tours, c'est tellement réaliste, enfin quelqu'un qui résout sérieusement le problème
Voir l'originalRépondre0
Don’tRushToDoubleItYet.
· Il y a 3h
Plus de 30 modèles peuvent économiser plusieurs semaines ? Je vais d'abord attendre de voir l'effet réel
Voir l'originalRépondre0
MirrorBallPeeking
· Il y a 3h
La mise à jour de LangSmith a vraiment ciblé les points faibles, l'évaluation des agents IA était trop pénible.
Voir l'originalRépondre0
  • Épinglé