ME News Notícias, 17 de abril (UTC+8), de acordo com o monitoramento do Beating, a ferramenta de observabilidade LangSmith, pertencente à plataforma de desenvolvimento de agentes de IA LangChain, lançou duas atualizações: biblioteca de modelos de avaliação e avaliadores reutilizáveis. Avaliar se um agente de IA é "fácil de usar" é atualmente uma das etapas mais demoradas no desenvolvimento. O agente pode chamar a ferramenta correta, mas o formato da resposta está errado, uma conversa de uma única rodada funciona normalmente, mas múltiplas rodadas travam, ou a resposta final parece razoável, mas as etapas intermediárias consultaram documentos incorretos. Os desenvolvedores precisam configurar pontos de verificação em vários níveis, como passo a passo, trajetória completa, diálogos múltiplos, chamadas específicas de ferramentas, e cada avaliador passa por um processo de criação de prompts, calibração com dados reais e ajustes repetidos, levando muitas vezes semanas para começar do zero. A LangSmith agora oferece mais de 30 modelos prontos, cobrindo cinco categorias: segurança e proteção (detecção de injeção de prompts, verificação de vazamento de informações pessoais, preconceitos e toxicidade), qualidade da resposta (exatidão, utilidade, tom), trajetória de execução (se o agente seguiu os passos corretos), análise de comportamento do usuário (distribuição de linguagem, sinais de satisfação), multimodalidade (revisão de saída de voz e imagem). Os modelos incluem prompts de avaliação ajustados de LLMs e avaliadores baseados em regras, que podem ser usados diretamente ou modificados, sendo aplicáveis tanto para monitoramento online quanto para experimentos offline. Os avaliadores reutilizáveis resolvem problemas de gestão organizacional: a nova aba de Avaliadores exibe centralizadamente todos os avaliadores do workspace, permite montar facilmente em novos projetos, e, após atualizar os prompts, entram em efeito globalmente, eliminando a necessidade de manter cópias duplicadas em cada projeto. Os modelos acima são de código aberto e foram lançados junto com o openevals v0.2.0, que adiciona suporte à avaliação multimodal. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

10 gostos

Recompensa
10
7
12
Partilhar

Comentar

Adicionar um comentário

DegenWithNotebook

· 3h atrás

Biblioteca de modelos de avaliadores + avaliadores reutilizáveis, a combinação visa melhorar a eficiência de desenvolvimento

Ver originalResponder0

OutsiderOfZhiyuandao

· 4h atrás

A monitorização do Beating é bastante rápida, o ecossistema LangChain está a ficar cada vez mais ativo.

Ver originalResponder0

StargazerInTheWoods

· 4h atrás

A ideia de design do avaliador reutilizável é boa, evita reinventar a roda

Ver originalResponder0

QuietValidator

· 4h atrás

Contar semanas do zero vs modelos prontos, essa comparação dói um pouco

Ver originalResponder0

AirdropDreamsInAGlassBottle

· 4h atrás

A falha em diálogos de múltiplas rodadas é realmente muito realista, finalmente alguém resolve de forma séria

Ver originalResponder0

Don’tRushToDoubleItYet.

· 4h atrás

Mais de 30 modelos podem poupar algumas semanas? Vou esperar para ver o efeito real.

Ver originalResponder0

MirrorBallPeeking

· 4h atrás

A atualização do LangSmith realmente abordou os pontos críticos, avaliar agentes de IA é muito frustrante

Ver originalResponder0

Tópicos em destaque
Ver mais
#
TradfiTradingChallenge
215.2K Popularidade
#
GrayscaleBuysAndStakesOver510KHYPE
8.9M Popularidade
#
IsraelStrikesIranBTCPlunges
48.36K Popularidade
#
#DailyPolymarketHotspot
1.01M Popularidade
#
SpaceXOfficiallyFilesforIPO
741.57K Popularidade

Fixado

A LangSmith lançou mais de 30 modelos de avaliação, a verificação de qualidade de agentes de IA já não precisa começar do zero

Tópicos em destaque

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Fixado