ME News Notícias, 17 de abril (UTC+8), de acordo com o monitoramento do Beating, a ferramenta de observabilidade da plataforma de desenvolvimento de agentes de IA LangChain lançou duas atualizações: biblioteca de modelos de avaliação e avaliadores reutilizáveis. Avaliar se um agente de IA é "útil" é atualmente uma das etapas mais demoradas do desenvolvimento. O agente pode chamar a ferramenta correta, mas o formato da resposta está errado, uma conversa de uma única rodada funciona normalmente, mas múltiplas rodadas travam, ou a resposta final parece razoável, mas as etapas intermediárias consultaram documentos incorretos. Os desenvolvedores precisam configurar pontos de verificação em vários níveis: passo a passo, trajetória completa, diálogos múltiplos, chamadas específicas de ferramentas, etc., e cada avaliador passa por um processo de escrever prompts, calibrar com dados reais, ajustar repetidamente, o que geralmente leva semanas desde o zero. Agora, o LangSmith oferece mais de 30 modelos prontos, cobrindo cinco categorias: segurança e proteção (detecção de injeção de prompts, verificação de vazamento de informações pessoais, preconceitos e toxicidade), qualidade da resposta (correção, utilidade, tom), trajetória de execução (se o agente seguiu os passos corretos), análise de comportamento do usuário (distribuição de linguagem, sinais de satisfação), multimodalidade (revisão de saída de voz e imagem). Os modelos incluem prompts de avaliação de LLM otimizados e avaliadores baseados em regras, que podem ser usados diretamente ou personalizados, além de serem aplicáveis para monitoramento online e experimentos offline. Avaliadores reutilizáveis resolvem problemas de gestão organizacional: a nova aba de Avaliadores exibe centralizadamente todos os avaliadores no workspace, permite montar em novos projetos com um clique, e após atualizar os prompts, as mudanças entram em vigor globalmente, sem precisar manter cópias repetidas em cada projeto. Os modelos acima são de código aberto e foram lançados junto com o openevals v0.2.0, que adiciona suporte à avaliação multimodal. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

10 Curtidas

Recompensa
10
7
12
Compartilhar

Comentário

Adicionar um comentário

DegenWithNotebook

· 4h atrás

Biblioteca de modelos de avaliadores + avaliadores reutilizáveis, a combinação aumenta a eficiência do desenvolvimento

Ver originalResponder0

OutsiderOfZhiyuandao

· 5h atrás

A monitoração do Beating é bastante rápida, o ecossistema do LangChain está ficando cada vez mais ativo.

Ver originalResponder0

StargazerInTheWoods

· 5h atrás

A ideia de design do avaliador reutilizável é boa, evita reinventar a roda

Ver originalResponder0

QuietValidator

· 5h atrás

Contar semanas do zero vs modelos prontos, essa comparação dói um pouco

Ver originalResponder0

AirdropDreamsInAGlassBottle

· 5h atrás

A falha em diálogos de múltiplas rodadas é muito realista, finalmente alguém resolve de forma séria

Ver originalResponder0

Don’tRushToDoubleItYet.

· 5h atrás

Quantos semanas podem ser economizadas com mais de 30 modelos? Vou esperar para ver o efeito real.

Ver originalResponder0

MirrorBallPeeking

· 5h atrás

A atualização do LangSmith realmente atingiu um ponto sensível, avaliar agentes de IA é muito difícil.

Ver originalResponder0

Tendências
Ver projetos
#
TradfiTradingChallenge
216.96K Popularidade
#
GrayscaleBuysAndStakesOver510KHYPE
8.91M Popularidade
#
IsraelStrikesIranBTCPlunges
48.4K Popularidade
#
#DailyPolymarketHotspot
1.01M Popularidade
#
SpaceXOfficiallyFilesforIPO
741.93K Popularidade

Fixado

sitemap

LangSmith lançou mais de 30 modelos de avaliação, a verificação de qualidade de agentes de IA não precisa mais começar do zero

Tendências

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Fixado