Equipe de Berkeley anuncia a quebra de 8 principais benchmarks de avaliação de agentes inteligentes e lança ferramentas de código aberto

ME News Notícias, 19 de abril (UTC+8), o grupo de pesquisa em inteligência artificial de Berkeley (berkeley_ai) reproduziu a declaração de Dawn Song, anunciando que sua equipe conseguiu superar 8 principais benchmarks de avaliação de agentes inteligentes. A equipe decidiu tornar as ferramentas usadas para alcançar esse resultado de código aberto, nomeando-as BenchJack. A ferramenta é descrita como "teste de penetração para avaliações", com o objetivo de ajudar outros desenvolvedores a testar proativamente e descobrir possíveis vulnerabilidades em seus próprios sistemas de avaliação. (Fonte: InFoQ)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 7
  • 2
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
GateUser-46033407
· 5h atrás
Dawn Song realmente é sólida na interseção de segurança e IA, e desta vez acertou em cheio
Ver originalResponder0
GateUser-f2d5f4c0
· 6h atrás
Ferramentas de código aberto são mais valiosas do que artigos acadêmicos, pelo menos podem ajudar todos a verificar se o benchmark é confiável ou não
Ver originalResponder0
ThePatienceRequiredFor
· 6h atrás
8 principais benchmarks totalmente quebrados, sinto que a barreira de proteção do agent eval é mais rasa do que eu imaginava
Ver originalResponder0
GovernanceVotingTug-Of-WarKing
· 6h atrás
O conceito de teste de penetração voltado para avaliação é bastante novo, antes era tudo sobre testar modelos, agora está testando as próprias questões.
Ver originalResponder0
NeonIceMelt
· 6h atrás
Equipe Dawn Song, essa jogada é muito Berkeley, primeiro conquista e depois abre o código, típico de um hacker acadêmico.
Ver originalResponder0
DustyAlpha
· 6h atrás
berkeley_ai sai na lata, estou ansioso para ver exatamente como eles contornam essas avaliações
Ver originalResponder0
Wax-SealedPrivateKey
· 6h atrás
BenchJack esse nome é um pouco interessante, o sistema de avaliação também precisa de seus próprios testes de penetração.
Ver originalResponder0
  • Fixado