ME News Actualités, le 17 avril (UTC+8), selon la surveillance de Dongcha Beating, l'outil d'observabilité de la plateforme de développement d'agents IA LangChain a publié deux mises à jour : une bibliothèque de modèles d’évaluation et un évaluateur réutilisable.
Évaluer si un agent IA est « pratique » est actuellement l'une des étapes les plus chronophages du développement.
L'agent peut appeler le bon outil mais avec un format de réponse incorrect, une conversation à un seul tour peut fonctionner normalement mais échouer en multi-tours, ou la réponse finale semble raisonnable mais les étapes intermédiaires ont recherché les mauvais documents.
Les développeurs doivent définir des points de contrôle à différents niveaux : étape unique, trajectoire complète, conversation multi-tours, appel d'outils spécifiques, etc., et chaque évaluateur doit passer par la rédaction de prompts, la calibration avec des données réelles, et un ajustement répété, ce qui peut prendre plusieurs semaines en partant de zéro.
LangSmith propose désormais plus de 30 modèles prêts à l’emploi, couvrant cinq catégories : sécurité et protection (détection d'injection de prompts, vérification de fuite d’informations personnelles, biais et toxicité), qualité des réponses (exactitude, utilité, ton), trajectoire d'exécution (si l’agent a suivi les bonnes étapes), analyse du comportement utilisateur (distribution linguistique, signaux de satisfaction), multimodal (examen des sorties audio et image).
Les modèles incluent des prompts d’évaluation optimisés pour LLM et des évaluateurs basés sur des règles, utilisables directement ou modifiables, adaptés à la surveillance en ligne et aux expérimentations hors ligne.
Les évaluateurs réutilisables résolvent les problèmes de gestion organisationnelle : l’onglet Evaluators nouvellement ajouté affiche tous les évaluateurs du workspace, permet de les attacher en un clic à de nouveaux projets, et après mise à jour des prompts, ils prennent effet globalement sans nécessiter de maintenir des copies redondantes dans chaque projet.
Les modèles mentionnés sont open source et seront intégrés dans la version 0.2.0 d’OpenEvals, avec un support accru pour l’évaluation multimodale.
（Source : BlockBeats）

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

10 J'aime

Récompense
10
7
11
Partager

Commentaire

Ajouter un commentaire

DegenWithNotebook

· Il y a 2h

Bibliothèque de modèles d’évaluateurs + évaluateurs réutilisables, la combinaison vise à améliorer l’efficacité du développement

Voir l'originalRépondre0

OutsiderOfZhiyuandao

· Il y a 3h

La surveillance de Beating est assez rapide, l'écosystème LangChain devient de plus en plus actif.

Voir l'originalRépondre0

StargazerInTheWoods

· Il y a 3h

L'idée de conception d'un évaluateur réutilisable est bonne, elle évite de réinventer la roue

Voir l'originalRépondre0

QuietValidator

· Il y a 3h

Compter à partir de zéro contre un modèle prêt à l'emploi, cette comparaison fait un peu mal au cœur

Voir l'originalRépondre0

AirdropDreamsInAGlassBottle

· Il y a 3h

L'effondrement des conversations à plusieurs tours, c'est tellement réaliste, enfin quelqu'un qui résout sérieusement le problème

Voir l'originalRépondre0

Don’tRushToDoubleItYet.

· Il y a 3h

Plus de 30 modèles peuvent économiser plusieurs semaines ? Je vais d'abord attendre de voir l'effet réel

Voir l'originalRépondre0

MirrorBallPeeking

· Il y a 3h

La mise à jour de LangSmith a vraiment ciblé les points faibles, l'évaluation des agents IA était trop pénible.

Voir l'originalRépondre0

Sujets populaires
Afficher plus
#
TradfiTradingChallenge
213.24K Popularité
#
GrayscaleBuysAndStakesOver510KHYPE
8.9M Popularité
#
IsraelStrikesIranBTCPlunges
48.36K Popularité
#
#DailyPolymarketHotspot
1.01M Popularité
#
SpaceXOfficiallyFilesforIPO
741.12K Popularité

Épinglé

LangSmith déploie plus de 30 modèles d’évaluation, la vérification de la qualité des agents IA n’a plus besoin d’être écrite à partir de zéro

Sujets populaires

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Épinglé