LangSmith lanza más de 30 plantillas de evaluación, la detección de calidad de los agentes de IA ya no requiere empezar desde cero

robot
Generación de resúmenes en curso
ME News Noticias, 17 de abril (UTC+8), según la monitorización de Dongcha Beating, la plataforma de desarrollo de agentes de IA LangChain, bajo su herramienta de observabilidad LangSmith, ha lanzado dos actualizaciones: una biblioteca de plantillas de evaluadores y evaluadores reutilizables.
Evaluar si un agente de IA es "útil" es actualmente una de las tareas más demoradas en el desarrollo.
El agente puede llamar a la herramienta correcta pero con un formato de respuesta incorrecto, en diálogos de una sola ronda funciona normalmente pero en diálogos múltiples se bloquea, la respuesta final parece razonable pero en los pasos intermedios se recuperan documentos incorrectos.
Los desarrolladores necesitan establecer puntos de control en múltiples niveles: pasos individuales, trayectorias completas, diálogos múltiples, llamadas a herramientas específicas, etc., y cada evaluador debe pasar por la creación de instrucciones, calibración con datos reales, ajuste repetido, lo que suele tomar varias semanas desde cero.
Ahora, LangSmith ofrece más de 30 plantillas predefinidas, cubriendo cinco categorías: seguridad y protección (detección de inyección de prompts, revisión de divulgación de información personal, sesgos y toxicidad), calidad de respuestas (precisión, utilidad, tono), trayectoria de ejecución (si el agente siguió los pasos correctos), análisis del comportamiento del usuario (distribución del lenguaje, señales de satisfacción), multimodalidad (revisión de salida de voz e imágenes).
Las plantillas incluyen instrucciones de evaluación ajustadas para LLM y evaluadores de código basados en reglas, que pueden usarse directamente o modificarse, y son aplicables tanto para monitoreo en línea como para experimentos offline.
Los evaluadores reutilizables abordan problemas de gestión a nivel organizacional: la nueva pestaña Evaluators muestra todos los evaluadores en el espacio de trabajo, permite montarlos en nuevos proyectos con un clic, y tras actualizar las instrucciones, las modificaciones se aplican globalmente sin necesidad de mantener copias duplicadas en cada proyecto.
Las plantillas mencionadas se abren en código abierto junto con el lanzamiento de openevals v0.2.0, que añade soporte para evaluación multimodal.
(Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 8
  • 7
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
VineGeometry
· hace2h
La evaluación de trayectorias la he escrito antes, con un sistema similar; cuando salga la solución oficial, se podrá migrar, lo que ahorrará costos de mantenimiento.
Ver originalResponder0
GateUser-4bd1cc87
· hace4h
Finalmente hay un plan unificado para la evaluación en múltiples niveles, lo que puede aliviar bastante el problema de que cada miembro del equipo tenga estándares diferentes.
Ver originalResponder0
MempoolDrifter
· hace4h
La plantilla de análisis de comportamiento del usuario es bastante interesante, finalmente puedo ver de manera sistemática cómo se utiliza el agente.
Ver originalResponder0
GateUser-5578154d
· hace4h
La función de montar en un clic en un nuevo proyecto es muy útil para nosotros, que manejamos múltiples proyectos en paralelo.
Ver originalResponder0
MistValleyFront
· hace4h
La plantilla de seguridad y protección es una necesidad básica, lo que más preocupa antes del lanzamiento del agente de IA es precisamente esto.
Ver originalResponder0
MorningGoldAsWavesCrashAgainst
· hace4h
La entrada de la pestaña Evaluadores está diseñada de manera bastante intuitiva, no es difícil de encontrar.
Ver originalResponder0
PermissionedFury
· hace4h
OpenEvals v0.2.0 de código abierto recibe buenas críticas, la construcción comunitaria es mucho mejor que hacer todo en privado
Ver originalResponder0
GateUser-176c498f
· hace4h
La actualización de LangSmith es muy útil, antes escribir evaluadores era realmente complicado, ahora simplemente usar plantillas ahorra mucho trabajo
Ver originalResponder0
  • Fijado