LangSmith déploie plus de 30 modèles d’évaluation, la vérification de la qualité des agents IA n’a plus besoin d’être écrite à partir de zéro

robot
Création du résumé en cours
ME News Actualités, le 17 avril (UTC+8), selon le monitoring de Dongcha Beating, l'outil d'observabilité de la plateforme de développement d'agents IA LangChain a publié deux mises à jour : une bibliothèque de modèles d’évaluation et un évaluateur réutilisable.
Évaluer si un agent IA est « pratique » est actuellement l'une des étapes les plus chronophages du développement.
L'agent peut appeler le bon outil mais avec un format de réponse incorrect, une conversation à un seul tour peut fonctionner normalement mais échouer en multi-tours, ou la réponse finale semble raisonnable mais les étapes intermédiaires ont recherché les mauvais documents.
Les développeurs doivent définir des points de contrôle à différents niveaux : étape unique, trajectoire complète, conversation multi-tours, appel d'outils spécifiques, etc., et chaque évaluateur doit passer par la rédaction de prompts, la calibration avec des données réelles, et des ajustements répétés, ce qui peut prendre plusieurs semaines en partant de zéro.
LangSmith propose désormais plus de 30 modèles prêts à l’emploi, couvrant cinq catégories : sécurité et protection (détection d'injection de prompts, vérification de fuite d’informations personnelles, biais et toxicité), qualité des réponses (exactitude, utilité, ton), trajectoire d'exécution (si l’agent a suivi les bonnes étapes), analyse du comportement utilisateur (distribution linguistique, signaux de satisfaction), multimodal (examen des sorties audio et image).
Les modèles incluent des prompts d’évaluation optimisés pour LLM et des évaluateurs basés sur des règles, utilisables directement ou modifiables, adaptés à la surveillance en ligne et aux expérimentations hors ligne.
Les évaluateurs réutilisables résolvent les problèmes de gestion organisationnelle : l’onglet « Evaluators » affiche tous les évaluateurs du workspace, permet de les attacher en un clic à de nouveaux projets, et une fois que les prompts sont mis à jour, cela s’applique globalement sans devoir maintenir des copies répétées dans chaque projet.
Les modèles mentionnés sont open source et seront intégrés dans la version 0.2.0 d’OpenEvals, avec un support accru pour l’évaluation multimodale.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 8
  • 7
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
VineGeometry
· Il y a 1h
L'évaluation de trajectoire, j'en ai déjà écrit une similaire auparavant, une fois que la solution officielle sera disponible, elle pourra être migrée, ce qui réduira les coûts de maintenance.
Voir l'originalRépondre0
GateUser-4bd1cc87
· Il y a 3h
Une solution unifiée pour l'évaluation à plusieurs niveaux a enfin été trouvée, ce qui peut atténuer considérablement le problème des standards différents au sein de l'équipe.
Voir l'originalRépondre0
MempoolDrifter
· Il y a 3h
Le modèle d'analyse du comportement utilisateur est intéressant, enfin capable d'examiner de manière systématique comment l'agent est utilisé.
Voir l'originalRépondre0
GateUser-5578154d
· Il y a 3h
La fonction de montage en un clic sur un nouveau projet est vraiment pratique pour nous, qui gérons plusieurs projets en parallèle.
Voir l'originalRépondre0
MistValleyFront
· Il y a 3h
Le modèle de sécurité et de protection est une nécessité absolue, la principale préoccupation avant le lancement de l'agent IA concerne cette partie.
Voir l'originalRépondre0
MorningGoldAsWavesCrashAgainst
· Il y a 3h
L'entrée de l'onglet Évaluateurs est conçue de manière assez intuitive, ce qui facilite la recherche.
Voir l'originalRépondre0
PermissionedFury
· Il y a 3h
OpenEvals v0.2.0 en open source reçoit de bonnes critiques, la co-construction communautaire est bien meilleure que de travailler en secret
Voir l'originalRépondre0
GateUser-176c498f
· Il y a 3h
La mise à jour de LangSmith est vraiment pratique, écrire un évaluateur auparavant était un vrai casse-tête, maintenant utiliser directement un modèle permet d'éviter beaucoup de soucis
Voir l'originalRépondre0
  • Épinglé