LangSmith lanza más de 30 plantillas de evaluación, la inspección de calidad de los agentes de IA ya no requiere empezar desde cero

ME News Noticias, 17 de abril (UTC+8), según la monitorización de Dongcha Beating, la plataforma de desarrollo de agentes de IA LangChain, junto con su herramienta de observabilidad LangSmith, ha lanzado dos actualizaciones: una biblioteca de plantillas de evaluadores y evaluadores reutilizables.
Evaluar si un agente de IA es "fácil de usar" es actualmente una de las tareas más que consume tiempo en el desarrollo.
El agente puede llamar a la herramienta correcta pero con un formato de respuesta incorrecto, una conversación de una sola ronda funciona normalmente pero en múltiples rondas se bloquea, o la respuesta final parece razonable pero en los pasos intermedios se recuperan documentos incorrectos.
Los desarrolladores necesitan establecer puntos de control en múltiples niveles: pasos individuales, trayectorias completas, diálogos multironda, llamadas a herramientas específicas, etc., y cada evaluador debe pasar por la creación de instrucciones, calibración con datos reales y ajuste repetido, lo que suele tomar varias semanas desde cero.
Ahora, LangSmith ofrece más de 30 plantillas predefinidas, cubriendo cinco categorías: seguridad y protección (detección de inyección de prompts, revisión de divulgación de información personal, sesgos y toxicidad), calidad de respuestas (precisión, utilidad, tono), trayectoria de ejecución (si el agente siguió los pasos correctos), análisis del comportamiento del usuario (distribución del lenguaje, señales de satisfacción), y multimodalidad (revisión de salidas de voz e imágenes).
Las plantillas incluyen instrucciones de evaluación ajustadas para LLM y evaluadores de código basados en reglas, que se pueden usar directamente o modificar, y son aplicables tanto para monitoreo en línea como para experimentos offline.
Los evaluadores reutilizables abordan problemas de gestión a nivel organizacional: la nueva pestaña Evaluators muestra todos los evaluadores en el espacio de trabajo, permite montarlos en nuevos proyectos con un clic, y tras actualizar las instrucciones, las modificaciones se aplican globalmente sin necesidad de mantener copias duplicadas en cada proyecto.
Las plantillas mencionadas se abren en código abierto junto con el lanzamiento de openevals v0.2.0, que añade soporte para evaluación multimodal.
(Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 7
  • 12
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
DegenWithNotebook
· hace3h
Biblioteca de plantillas de evaluadores + evaluadores reutilizables, la combinación mejora la eficiencia del desarrollo
Ver originalResponder0
OutsiderOfZhiyuandao
· hace4h
La monitorización de Beating es bastante rápida, el ecosistema de LangChain se está volviendo cada vez más activo.
Ver originalResponder0
StargazerInTheWoods
· hace4h
La idea de diseño del evaluador reutilizable es buena, evita reinventar la rueda
Ver originalResponder0
QuietValidator
· hace4h
Contar desde cero semanas vs plantillas prehechas, esta comparación duele un poco.
Ver originalResponder0
AirdropDreamsInAGlassBottle
· hace4h
La caída en diálogos de múltiples rondas es demasiado realista, finalmente alguien lo ha solucionado de manera seria.
Ver originalResponder0
Don’tRushToDoubleItYet.
· hace4h
¿Más de 30 plantillas pueden ahorrar varias semanas? Primero esperaré a ver los resultados reales.
Ver originalResponder0
MirrorBallPeeking
· hace4h
La actualización de LangSmith realmente abordó los puntos débiles, evaluar agentes de IA es demasiado frustrante.
Ver originalResponder0
  • Fijado