A LangSmith lançou mais de 30 modelos de avaliação, a verificação de qualidade de agentes de IA já não precisa começar do zero

robot
Geração de resumo em curso
ME News Notícias, 17 de abril (UTC+8), de acordo com o monitoramento do Beating, a ferramenta de observabilidade da plataforma de desenvolvimento de agentes de IA LangChain lançou duas atualizações: biblioteca de modelos de avaliadores e avaliadores reutilizáveis. Avaliar se um agente de IA é "fácil de usar" é atualmente uma das etapas mais demoradas no desenvolvimento. O agente pode chamar a ferramenta correta, mas o formato da resposta está errado, uma conversa de uma única rodada funciona normalmente, mas em múltiplas rodadas ele trava, ou a resposta final parece razoável, mas as etapas intermediárias consultaram documentos incorretos. Os desenvolvedores precisam configurar pontos de verificação em vários níveis: passo a passo, trajetória completa, múltiplas rodadas, chamadas específicas de ferramentas, etc., e cada avaliador passa por um processo de criação de prompts, calibração com dados reais e ajustes repetidos, começando do zero, o que geralmente leva várias semanas. A LangSmith agora oferece mais de 30 modelos prontos, cobrindo cinco categorias: segurança e proteção (detecção de injeção de prompts, verificação de vazamento de informações pessoais, preconceitos e toxicidade), qualidade da resposta (exatidão, utilidade, tom), trajetória de execução (se o agente seguiu os passos corretos), análise de comportamento do usuário (distribuição de linguagem, sinais de satisfação), multimodalidade (revisão de saída de voz e imagem). Os modelos incluem prompts de avaliação ajustados para LLMs e avaliadores baseados em regras, que podem ser usados diretamente ou modificados, sendo aplicáveis tanto para monitoramento online quanto para experimentos offline. Os avaliadores reutilizáveis resolvem problemas de gestão organizacional: a nova aba de Avaliadores exibe centralizadamente todos os avaliadores do workspace, permite montar facilmente em novos projetos, e após atualizar os prompts, as mudanças entram em vigor globalmente, sem necessidade de manter cópias duplicadas em cada projeto. Os modelos acima são de código aberto e foram lançados junto com o openevals v0.2.0, que adiciona suporte à avaliação multimodal. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 8
  • 7
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
VineGeometry
· 2h atrás
Na avaliação de trajetórias, já escrevi algo semelhante antes, assim que a solução oficial estiver disponível, poderei migrar, economizando custos de manutenção.
Ver originalResponder0
GateUser-4bd1cc87
· 4h atrás
A avaliação em múltiplos níveis finalmente tem uma solução unificada, o que ajuda a aliviar bastante o problema de diferentes padrões entre os membros da equipa.
Ver originalResponder0
MempoolDrifter
· 4h atrás
O modelo de análise de comportamento do utilizador é interessante, finalmente posso ver de forma sistemática como o agente é utilizado.
Ver originalResponder0
GateUser-5578154d
· 4h atrás
A funcionalidade de montar com um clique em um novo projeto é muito útil para nós, que trabalhamos com múltiplos projetos em paralelo.
Ver originalResponder0
MistValleyFront
· 4h atrás
Modelos de segurança e proteção são uma necessidade básica, a principal preocupação antes do lançamento do agente de IA é exatamente essa.
Ver originalResponder0
MorningGoldAsWavesCrashAgainst
· 4h atrás
A entrada da aba Avaliadores foi projetada de forma bastante intuitiva, não é difícil de encontrar
Ver originalResponder0
PermissionedFury
· 4h atrás
Openevals v0.2.0 de código aberto com boas críticas, a construção comunitária é muito melhor do que fazer tudo em segredo
Ver originalResponder0
GateUser-176c498f
· 4h atrás
A atualização do LangSmith foi muito útil, antes escrever avaliadores era realmente complicado, agora basta usar um modelo pronto para economizar muito trabalho
Ver originalResponder0
  • Fixado