A LangSmith lançou mais de 30 modelos de avaliação, a verificação de qualidade de agentes de IA já não precisa começar do zero

ME News Notícias, 17 de abril (UTC+8), de acordo com o monitoramento do Beating, a ferramenta de observabilidade LangSmith, pertencente à plataforma de desenvolvimento de agentes de IA LangChain, lançou duas atualizações: biblioteca de modelos de avaliação e avaliadores reutilizáveis. Avaliar se um agente de IA é "fácil de usar" é atualmente uma das etapas mais demoradas no desenvolvimento. O agente pode chamar a ferramenta correta, mas o formato da resposta está errado, uma conversa de uma única rodada funciona normalmente, mas múltiplas rodadas travam, ou a resposta final parece razoável, mas as etapas intermediárias consultaram documentos incorretos. Os desenvolvedores precisam configurar pontos de verificação em vários níveis, como passo a passo, trajetória completa, diálogos múltiplos, chamadas específicas de ferramentas, e cada avaliador passa por um processo de criação de prompts, calibração com dados reais e ajustes repetidos, levando muitas vezes semanas para começar do zero. A LangSmith agora oferece mais de 30 modelos prontos, cobrindo cinco categorias: segurança e proteção (detecção de injeção de prompts, verificação de vazamento de informações pessoais, preconceitos e toxicidade), qualidade da resposta (exatidão, utilidade, tom), trajetória de execução (se o agente seguiu os passos corretos), análise de comportamento do usuário (distribuição de linguagem, sinais de satisfação), multimodalidade (revisão de saída de voz e imagem). Os modelos incluem prompts de avaliação ajustados de LLMs e avaliadores baseados em regras, que podem ser usados diretamente ou modificados, sendo aplicáveis tanto para monitoramento online quanto para experimentos offline. Os avaliadores reutilizáveis resolvem problemas de gestão organizacional: a nova aba de Avaliadores exibe centralizadamente todos os avaliadores do workspace, permite montar facilmente em novos projetos, e, após atualizar os prompts, entram em efeito globalmente, eliminando a necessidade de manter cópias duplicadas em cada projeto. Os modelos acima são de código aberto e foram lançados junto com o openevals v0.2.0, que adiciona suporte à avaliação multimodal. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 7
  • 12
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
DegenWithNotebook
· 3h atrás
Biblioteca de modelos de avaliadores + avaliadores reutilizáveis, a combinação visa melhorar a eficiência de desenvolvimento
Ver originalResponder0
OutsiderOfZhiyuandao
· 4h atrás
A monitorização do Beating é bastante rápida, o ecossistema LangChain está a ficar cada vez mais ativo.
Ver originalResponder0
StargazerInTheWoods
· 4h atrás
A ideia de design do avaliador reutilizável é boa, evita reinventar a roda
Ver originalResponder0
QuietValidator
· 4h atrás
Contar semanas do zero vs modelos prontos, essa comparação dói um pouco
Ver originalResponder0
AirdropDreamsInAGlassBottle
· 4h atrás
A falha em diálogos de múltiplas rodadas é realmente muito realista, finalmente alguém resolve de forma séria
Ver originalResponder0
Don’tRushToDoubleItYet.
· 4h atrás
Mais de 30 modelos podem poupar algumas semanas? Vou esperar para ver o efeito real.
Ver originalResponder0
MirrorBallPeeking
· 4h atrás
A atualização do LangSmith realmente abordou os pontos críticos, avaliar agentes de IA é muito frustrante
Ver originalResponder0
  • Fixado