LangSmith publie une bibliothèque de modèles d’évaluateurs et des évaluateurs réutilisables, simplifiant le travail d’évaluation à plusieurs niveaux des agents IA. Les modèles couvrent cinq catégories principales : sécurité et protection, qualité des réponses, trajectoire d'exécution, analyse du comportement utilisateur et multimodal, avec des prompts d’évaluation optimisés et des évaluateurs de règles, adaptés à la surveillance en ligne et aux expériences hors ligne. Les évaluateurs réutilisables sont gérés de manière centralisée au niveau organisationnel, avec un nouvel onglet Évaluateurs, une possibilité de déployer en un clic sur de nouveaux projets, et des prompts de mise à jour appliqués globalement, open source et publiés avec openevals v0.2.0, ajoutant la prise en charge multimodale.

MeNews

2026-05-21 00:50:03

Création du résumé en cours

ME News Actualités, le 17 avril (UTC+8), selon le monitoring de Dongcha Beating, l'outil d'observabilité de la plateforme de développement d'agents IA LangChain a publié deux mises à jour : une bibliothèque de modèles d’évaluation et un évaluateur réutilisable.
Évaluer si un agent IA est « pratique » est actuellement l'une des étapes les plus chronophages du développement.
L'agent peut appeler le bon outil mais avec un format de réponse incorrect, une conversation à un seul tour peut fonctionner normalement mais échouer en multi-tours, ou la réponse finale semble raisonnable mais les étapes intermédiaires ont recherché les mauvais documents.
Les développeurs doivent définir des points de contrôle à différents niveaux : étape unique, trajectoire complète, conversation multi-tours, appel d'outils spécifiques, etc., et chaque évaluateur doit passer par la rédaction de prompts, la calibration avec des données réelles, et des ajustements répétés, ce qui peut prendre plusieurs semaines en partant de zéro.
LangSmith propose désormais plus de 30 modèles prêts à l’emploi, couvrant cinq catégories : sécurité et protection (détection d'injection de prompts, vérification de fuite d’informations personnelles, biais et toxicité), qualité des réponses (exactitude, utilité, ton), trajectoire d'exécution (si l’agent a suivi les bonnes étapes), analyse du comportement utilisateur (distribution linguistique, signaux de satisfaction), multimodal (examen des sorties audio et image).
Les modèles incluent des prompts d’évaluation optimisés pour LLM et des évaluateurs basés sur des règles, utilisables directement ou modifiables, adaptés à la surveillance en ligne et aux expérimentations hors ligne.
Les évaluateurs réutilisables résolvent les problèmes de gestion organisationnelle : l’onglet « Evaluators » affiche tous les évaluateurs du workspace, permet de les attacher en un clic à de nouveaux projets, et une fois que les prompts sont mis à jour, cela s’applique globalement sans devoir maintenir des copies répétées dans chaque projet.
Les modèles mentionnés sont open source et seront intégrés dans la version 0.2.0 d’OpenEvals, avec un support accru pour l’évaluation multimodale.
（Source : BlockBeats）

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

9 J'aime

Récompense
9
8
7
Partager

Commentaire

Ajouter un commentaire

VineGeometry

· Il y a 1h

L'évaluation de trajectoire, j'en ai déjà écrit une similaire auparavant, une fois que la solution officielle sera disponible, elle pourra être migrée, ce qui réduira les coûts de maintenance.

Voir l'originalRépondre0

GateUser-4bd1cc87

· Il y a 3h

Une solution unifiée pour l'évaluation à plusieurs niveaux a enfin été trouvée, ce qui peut atténuer considérablement le problème des standards différents au sein de l'équipe.

Voir l'originalRépondre0

MempoolDrifter

· Il y a 3h

Le modèle d'analyse du comportement utilisateur est intéressant, enfin capable d'examiner de manière systématique comment l'agent est utilisé.

Voir l'originalRépondre0

GateUser-5578154d

· Il y a 3h

La fonction de montage en un clic sur un nouveau projet est vraiment pratique pour nous, qui gérons plusieurs projets en parallèle.

Voir l'originalRépondre0

MistValleyFront

· Il y a 3h

Le modèle de sécurité et de protection est une nécessité absolue, la principale préoccupation avant le lancement de l'agent IA concerne cette partie.

Voir l'originalRépondre0

MorningGoldAsWavesCrashAgainst

· Il y a 3h

L'entrée de l'onglet Évaluateurs est conçue de manière assez intuitive, ce qui facilite la recherche.

Voir l'originalRépondre0

PermissionedFury

· Il y a 3h

OpenEvals v0.2.0 en open source reçoit de bonnes critiques, la co-construction communautaire est bien meilleure que de travailler en secret

Voir l'originalRépondre0

GateUser-176c498f

· Il y a 3h

La mise à jour de LangSmith est vraiment pratique, écrire un évaluateur auparavant était un vrai casse-tête, maintenant utiliser directement un modèle permet d'éviter beaucoup de soucis

Voir l'originalRépondre0

Sujets populaires
Afficher plus
#
TradfiTradingChallenge
210.3K Popularité
#
GrayscaleBuysAndStakesOver510KHYPE
8.89M Popularité
#
IsraelStrikesIranBTCPlunges
48.36K Popularité
#
#DailyPolymarketHotspot
1.01M Popularité
#
SpaceXOfficiallyFilesforIPO
734.18K Popularité

Épinglé

LangSmith déploie plus de 30 modèles d’évaluation, la vérification de la qualité des agents IA n’a plus besoin d’être écrite à partir de zéro

Sujets populaires

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Épinglé