LangSmith lançou mais de 30 modelos de avaliação, a verificação de qualidade de agentes de IA não precisa mais começar do zero

ME News Notícias, 17 de abril (UTC+8), de acordo com o monitoramento do Beating, a ferramenta de observabilidade da plataforma de desenvolvimento de agentes de IA LangChain lançou duas atualizações: biblioteca de modelos de avaliação e avaliadores reutilizáveis. Avaliar se um agente de IA é "útil" é atualmente uma das etapas mais demoradas do desenvolvimento. O agente pode chamar a ferramenta correta, mas o formato da resposta está errado, uma conversa de uma única rodada funciona normalmente, mas múltiplas rodadas travam, ou a resposta final parece razoável, mas as etapas intermediárias consultaram documentos incorretos. Os desenvolvedores precisam configurar pontos de verificação em vários níveis: passo a passo, trajetória completa, diálogos múltiplos, chamadas específicas de ferramentas, etc., e cada avaliador passa por um processo de escrever prompts, calibrar com dados reais, ajustar repetidamente, o que geralmente leva semanas desde o zero. Agora, o LangSmith oferece mais de 30 modelos prontos, cobrindo cinco categorias: segurança e proteção (detecção de injeção de prompts, verificação de vazamento de informações pessoais, preconceitos e toxicidade), qualidade da resposta (correção, utilidade, tom), trajetória de execução (se o agente seguiu os passos corretos), análise de comportamento do usuário (distribuição de linguagem, sinais de satisfação), multimodalidade (revisão de saída de voz e imagem). Os modelos incluem prompts de avaliação de LLM otimizados e avaliadores baseados em regras, que podem ser usados diretamente ou personalizados, além de serem aplicáveis para monitoramento online e experimentos offline. Avaliadores reutilizáveis resolvem problemas de gestão organizacional: a nova aba de Avaliadores exibe centralizadamente todos os avaliadores no workspace, permite montar em novos projetos com um clique, e após atualizar os prompts, as mudanças entram em vigor globalmente, sem precisar manter cópias repetidas em cada projeto. Os modelos acima são de código aberto e foram lançados junto com o openevals v0.2.0, que adiciona suporte à avaliação multimodal. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 7
  • 12
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
DegenWithNotebook
· 4h atrás
Biblioteca de modelos de avaliadores + avaliadores reutilizáveis, a combinação aumenta a eficiência do desenvolvimento
Ver originalResponder0
OutsiderOfZhiyuandao
· 5h atrás
A monitoração do Beating é bastante rápida, o ecossistema do LangChain está ficando cada vez mais ativo.
Ver originalResponder0
StargazerInTheWoods
· 5h atrás
A ideia de design do avaliador reutilizável é boa, evita reinventar a roda
Ver originalResponder0
QuietValidator
· 5h atrás
Contar semanas do zero vs modelos prontos, essa comparação dói um pouco
Ver originalResponder0
AirdropDreamsInAGlassBottle
· 5h atrás
A falha em diálogos de múltiplas rodadas é muito realista, finalmente alguém resolve de forma séria
Ver originalResponder0
Don’tRushToDoubleItYet.
· 5h atrás
Quantos semanas podem ser economizadas com mais de 30 modelos? Vou esperar para ver o efeito real.
Ver originalResponder0
MirrorBallPeeking
· 5h atrás
A atualização do LangSmith realmente atingiu um ponto sensível, avaliar agentes de IA é muito difícil.
Ver originalResponder0
  • Fixado