ME News Noticias, 17 de abril (UTC+8), según la monitorización de Dongcha Beating, la plataforma de desarrollo de agentes de IA LangChain, junto con su herramienta de observabilidad LangSmith, ha lanzado dos actualizaciones: una biblioteca de plantillas de evaluadores y evaluadores reutilizables.
Evaluar si un agente de IA es "fácil de usar" es actualmente una de las tareas más que consume tiempo en el desarrollo.
El agente puede llamar a la herramienta correcta pero con un formato de respuesta incorrecto, una conversación de una sola ronda funciona normalmente pero en múltiples rondas se bloquea, o la respuesta final parece razonable pero en los pasos intermedios se recuperan documentos incorrectos.
Los desarrolladores necesitan establecer puntos de control en múltiples niveles: pasos individuales, trayectorias completas, diálogos multironda, llamadas a herramientas específicas, etc., y cada evaluador debe pasar por la creación de instrucciones, calibración con datos reales y ajuste repetido, lo que suele tomar varias semanas desde cero.
Ahora, LangSmith ofrece más de 30 plantillas predefinidas, cubriendo cinco categorías: seguridad y protección (detección de inyección de prompts, revisión de divulgación de información personal, sesgos y toxicidad), calidad de respuestas (precisión, utilidad, tono), trayectoria de ejecución (si el agente siguió los pasos correctos), análisis del comportamiento del usuario (distribución del lenguaje, señales de satisfacción), y multimodalidad (revisión de salidas de voz e imágenes).
Las plantillas incluyen instrucciones de evaluación ajustadas para LLM y evaluadores de código basados en reglas, que se pueden usar directamente o modificar, y son aplicables tanto para monitoreo en línea como para experimentos offline.
Los evaluadores reutilizables abordan problemas de gestión a nivel organizacional: la nueva pestaña Evaluators muestra todos los evaluadores en el espacio de trabajo, permite montarlos en nuevos proyectos con un clic, y tras actualizar las instrucciones, las modificaciones se aplican globalmente sin necesidad de mantener copias duplicadas en cada proyecto.
Las plantillas mencionadas se abren en código abierto junto con el lanzamiento de openevals v0.2.0, que añade soporte para evaluación multimodal.
（Fuente: BlockBeats）

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

10 me gusta

Recompensa
10
7
12
Compartir

Comentar

Añadir un comentario

DegenWithNotebook

· hace3h

Biblioteca de plantillas de evaluadores + evaluadores reutilizables, la combinación mejora la eficiencia del desarrollo

Ver originalResponder0

OutsiderOfZhiyuandao

· hace4h

La monitorización de Beating es bastante rápida, el ecosistema de LangChain se está volviendo cada vez más activo.

Ver originalResponder0

StargazerInTheWoods

· hace4h

La idea de diseño del evaluador reutilizable es buena, evita reinventar la rueda

Ver originalResponder0

QuietValidator

· hace4h

Contar desde cero semanas vs plantillas prehechas, esta comparación duele un poco.

Ver originalResponder0

AirdropDreamsInAGlassBottle

· hace4h

La caída en diálogos de múltiples rondas es demasiado realista, finalmente alguien lo ha solucionado de manera seria.

Ver originalResponder0

Don’tRushToDoubleItYet.

· hace4h

¿Más de 30 plantillas pueden ahorrar varias semanas? Primero esperaré a ver los resultados reales.

Ver originalResponder0

MirrorBallPeeking

· hace4h

La actualización de LangSmith realmente abordó los puntos débiles, evaluar agentes de IA es demasiado frustrante.

Ver originalResponder0

Temas de actualidad
Ver más
#
TradfiTradingChallenge
215.2K Popularidad
#
GrayscaleBuysAndStakesOver510KHYPE
8.9M Popularidad
#
IsraelStrikesIranBTCPlunges
48.36K Popularidad
#
#DailyPolymarketHotspot
1.01M Popularidad
#
SpaceXOfficiallyFilesforIPO
741.57K Popularidad

Fijado

LangSmith lanza más de 30 plantillas de evaluación, la inspección de calidad de los agentes de IA ya no requiere empezar desde cero

Temas de actualidad

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Fijado