LangSmith lanza una biblioteca de plantillas de evaluadores y evaluadores reutilizables, simplificando las tareas de evaluación multinivel de los agentes de IA. Las plantillas cubren cinco categorías principales: seguridad y protección, calidad de respuestas, trazabilidad de ejecución, análisis del comportamiento del usuario y multimodalidad, incluyendo prompts de evaluación optimizados y evaluadores de reglas, adecuados para monitoreo en línea y experimentos fuera de línea. Los evaluadores reutilizables se gestionan de manera centralizada a nivel organizacional, con una nueva pestaña de Etiquetas de Evaluadores, una función de montaje con un clic en nuevos proyectos, y actualizaciones de prompts que se aplican globalmente. Abierto y lanzado junto con openevals v0.2.0, con soporte añadido para multimodalidad.

MeNews

2026-05-21 00:50:03

Generación de resúmenes en curso

ME News Noticias, 17 de abril (UTC+8), según la monitorización de Dongcha Beating, la plataforma de desarrollo de agentes de IA LangChain, bajo su herramienta de observabilidad LangSmith, ha lanzado dos actualizaciones: una biblioteca de plantillas de evaluadores y evaluadores reutilizables.
Evaluar si un agente de IA es "útil" es actualmente una de las tareas más demoradas en el desarrollo.
El agente puede llamar a la herramienta correcta pero con un formato de respuesta incorrecto, en diálogos de una sola ronda funciona normalmente pero en diálogos múltiples se bloquea, la respuesta final parece razonable pero en los pasos intermedios se recuperan documentos incorrectos.
Los desarrolladores necesitan establecer puntos de control en múltiples niveles: pasos individuales, trayectorias completas, diálogos múltiples, llamadas a herramientas específicas, etc., y cada evaluador debe pasar por la creación de instrucciones, calibración con datos reales, ajuste repetido, lo que suele tomar varias semanas desde cero.
Ahora, LangSmith ofrece más de 30 plantillas predefinidas, cubriendo cinco categorías: seguridad y protección (detección de inyección de prompts, revisión de divulgación de información personal, sesgos y toxicidad), calidad de respuestas (precisión, utilidad, tono), trayectoria de ejecución (si el agente siguió los pasos correctos), análisis del comportamiento del usuario (distribución del lenguaje, señales de satisfacción), multimodalidad (revisión de salida de voz e imágenes).
Las plantillas incluyen instrucciones de evaluación ajustadas para LLM y evaluadores de código basados en reglas, que pueden usarse directamente o modificarse, y son aplicables tanto para monitoreo en línea como para experimentos offline.
Los evaluadores reutilizables abordan problemas de gestión a nivel organizacional: la nueva pestaña Evaluators muestra todos los evaluadores en el espacio de trabajo, permite montarlos en nuevos proyectos con un clic, y tras actualizar las instrucciones, las modificaciones se aplican globalmente sin necesidad de mantener copias duplicadas en cada proyecto.
Las plantillas mencionadas se abren en código abierto junto con el lanzamiento de openevals v0.2.0, que añade soporte para evaluación multimodal.
（Fuente: BlockBeats）

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

9 me gusta

Recompensa
9
8
7
Compartir

Comentar

Añadir un comentario

VineGeometry

· hace2h

La evaluación de trayectorias la he escrito antes, con un sistema similar; cuando salga la solución oficial, se podrá migrar, lo que ahorrará costos de mantenimiento.

Ver originalResponder0

GateUser-4bd1cc87

· hace4h

Finalmente hay un plan unificado para la evaluación en múltiples niveles, lo que puede aliviar bastante el problema de que cada miembro del equipo tenga estándares diferentes.

Ver originalResponder0

MempoolDrifter

· hace4h

La plantilla de análisis de comportamiento del usuario es bastante interesante, finalmente puedo ver de manera sistemática cómo se utiliza el agente.

Ver originalResponder0

GateUser-5578154d

· hace4h

La función de montar en un clic en un nuevo proyecto es muy útil para nosotros, que manejamos múltiples proyectos en paralelo.

Ver originalResponder0

MistValleyFront

· hace4h

La plantilla de seguridad y protección es una necesidad básica, lo que más preocupa antes del lanzamiento del agente de IA es precisamente esto.

Ver originalResponder0

MorningGoldAsWavesCrashAgainst

· hace4h

La entrada de la pestaña Evaluadores está diseñada de manera bastante intuitiva, no es difícil de encontrar.

Ver originalResponder0

PermissionedFury

· hace4h

OpenEvals v0.2.0 de código abierto recibe buenas críticas, la construcción comunitaria es mucho mejor que hacer todo en privado

Ver originalResponder0

GateUser-176c498f

· hace4h

La actualización de LangSmith es muy útil, antes escribir evaluadores era realmente complicado, ahora simplemente usar plantillas ahorra mucho trabajo

Ver originalResponder0

Temas de actualidad
Ver más
#
TradfiTradingChallenge
211.91K Popularidad
#
GrayscaleBuysAndStakesOver510KHYPE
8.9M Popularidad
#
IsraelStrikesIranBTCPlunges
48.36K Popularidad
#
#DailyPolymarketHotspot
1.01M Popularidad
#
SpaceXOfficiallyFilesforIPO
740.51K Popularidad

Fijado

LangSmith lanza más de 30 plantillas de evaluación, la detección de calidad de los agentes de IA ya no requiere empezar desde cero

Temas de actualidad

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Fijado