LangSmith lança uma biblioteca de modelos de avaliadores e avaliadores reutilizáveis, simplificando a avaliação em múltiplos níveis de agentes de IA. Os modelos cobrem cinco categorias principais: segurança e proteção, qualidade de resposta, trilha de execução, análise de comportamento do usuário e multimodalidade, incluindo prompts de avaliação otimizados e avaliadores de regras, adequados para monitoramento online e experimentos offline. Os avaliadores reutilizáveis são gerenciados centralmente na organização, com uma nova aba de Avaliadores, implantação com um clique em novos projetos, e atualizações de prompts que entram em vigor globalmente, sendo de código aberto e lançados junto com o openevals v0.2.0, adicionando suporte multimodal.

MeNews

2026-05-21 00:50:03

Geração de resumo em curso

ME News Notícias, 17 de abril (UTC+8), de acordo com o monitoramento do Beating, a ferramenta de observabilidade da plataforma de desenvolvimento de agentes de IA LangChain lançou duas atualizações: biblioteca de modelos de avaliadores e avaliadores reutilizáveis. Avaliar se um agente de IA é "fácil de usar" é atualmente uma das etapas mais demoradas no desenvolvimento. O agente pode chamar a ferramenta correta, mas o formato da resposta está errado, uma conversa de uma única rodada funciona normalmente, mas em múltiplas rodadas ele trava, ou a resposta final parece razoável, mas as etapas intermediárias consultaram documentos incorretos. Os desenvolvedores precisam configurar pontos de verificação em vários níveis: passo a passo, trajetória completa, múltiplas rodadas, chamadas específicas de ferramentas, etc., e cada avaliador passa por um processo de criação de prompts, calibração com dados reais e ajustes repetidos, começando do zero, o que geralmente leva várias semanas. A LangSmith agora oferece mais de 30 modelos prontos, cobrindo cinco categorias: segurança e proteção (detecção de injeção de prompts, verificação de vazamento de informações pessoais, preconceitos e toxicidade), qualidade da resposta (exatidão, utilidade, tom), trajetória de execução (se o agente seguiu os passos corretos), análise de comportamento do usuário (distribuição de linguagem, sinais de satisfação), multimodalidade (revisão de saída de voz e imagem). Os modelos incluem prompts de avaliação ajustados para LLMs e avaliadores baseados em regras, que podem ser usados diretamente ou modificados, sendo aplicáveis tanto para monitoramento online quanto para experimentos offline. Os avaliadores reutilizáveis resolvem problemas de gestão organizacional: a nova aba de Avaliadores exibe centralizadamente todos os avaliadores do workspace, permite montar facilmente em novos projetos, e após atualizar os prompts, as mudanças entram em vigor globalmente, sem necessidade de manter cópias duplicadas em cada projeto. Os modelos acima são de código aberto e foram lançados junto com o openevals v0.2.0, que adiciona suporte à avaliação multimodal. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

9 gostos

Recompensa
9
8
7
Partilhar

Comentar

Adicionar um comentário

VineGeometry

· 2h atrás

Na avaliação de trajetórias, já escrevi algo semelhante antes, assim que a solução oficial estiver disponível, poderei migrar, economizando custos de manutenção.

Ver originalResponder0

GateUser-4bd1cc87

· 4h atrás

A avaliação em múltiplos níveis finalmente tem uma solução unificada, o que ajuda a aliviar bastante o problema de diferentes padrões entre os membros da equipa.

Ver originalResponder0

MempoolDrifter

· 4h atrás

O modelo de análise de comportamento do utilizador é interessante, finalmente posso ver de forma sistemática como o agente é utilizado.

Ver originalResponder0

GateUser-5578154d

· 4h atrás

A funcionalidade de montar com um clique em um novo projeto é muito útil para nós, que trabalhamos com múltiplos projetos em paralelo.

Ver originalResponder0

MistValleyFront

· 4h atrás

Modelos de segurança e proteção são uma necessidade básica, a principal preocupação antes do lançamento do agente de IA é exatamente essa.

Ver originalResponder0

MorningGoldAsWavesCrashAgainst

· 4h atrás

A entrada da aba Avaliadores foi projetada de forma bastante intuitiva, não é difícil de encontrar

Ver originalResponder0

PermissionedFury

· 4h atrás

Openevals v0.2.0 de código aberto com boas críticas, a construção comunitária é muito melhor do que fazer tudo em segredo

Ver originalResponder0

GateUser-176c498f

· 4h atrás

A atualização do LangSmith foi muito útil, antes escrever avaliadores era realmente complicado, agora basta usar um modelo pronto para economizar muito trabalho

Ver originalResponder0

Tópicos em destaque
Ver mais
#
TradfiTradingChallenge
211.91K Popularidade
#
GrayscaleBuysAndStakesOver510KHYPE
8.9M Popularidade
#
IsraelStrikesIranBTCPlunges
48.36K Popularidade
#
#DailyPolymarketHotspot
1.01M Popularidade
#
SpaceXOfficiallyFilesforIPO
740.51K Popularidade

Fixado

A LangSmith lançou mais de 30 modelos de avaliação, a verificação de qualidade de agentes de IA já não precisa começar do zero

Tópicos em destaque

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Fixado