A equipa de Berkeley anuncia a quebra de 8 principais benchmarks de avaliação de agentes inteligentes e a disponibilização de ferramentas de código aberto

ME News Notícias, 19 de abril (UTC+8), o grupo de pesquisa em inteligência artificial de Berkeley (berkeley_ai) reproduziu a declaração de Dawn Song, anunciando que sua equipe conseguiu superar 8 principais benchmarks de avaliação de agentes inteligentes. A equipe decidiu tornar as ferramentas usadas para alcançar esse resultado de código aberto, nomeando-as BenchJack. A ferramenta é descrita como "um teste de penetração para avaliações", com o objetivo de ajudar outros desenvolvedores a testar proativamente e descobrir possíveis vulnerabilidades em seus próprios sistemas de avaliação. (Fonte: InFoQ)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 7
  • 2
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
GateUser-46033407
· 4h atrás
Dawn Song é realmente sólida na interseção de segurança e IA, e desta vez acertou em cheio
Ver originalResponder0
GateUser-f2d5f4c0
· 5h atrás
Ferramentas de código aberto são mais valiosas do que artigos, pelo menos permitem que todos verifiquem se o benchmark é realmente confiável.
Ver originalResponder0
ThePatienceRequiredFor
· 5h atrás
8 principais benchmarks totalmente quebrados, sinto que a barreira de proteção do agent eval é mais rasa do que imaginei
Ver originalResponder0
GovernanceVotingTug-Of-WarKing
· 5h atrás
O conceito de teste de penetração focado na avaliação é bastante novo, antes era sempre testar o modelo, agora está a testar o próprio questionário.
Ver originalResponder0
NeonIceMelt
· 5h atrás
A equipa de Dawn Song fez uma jogada muito Berkeley, primeiro conquistam e depois abrem o código, um típico espírito de hacker académico
Ver originalResponder0
DustyAlpha
· 6h atrás
berkeley_ai mostra que é forte, estou ansioso para ver exatamente como eles contornam essas avaliações
Ver originalResponder0
Wax-SealedPrivateKey
· 6h atrás
BenchJack este nome é um pouco interessante, o sistema de avaliação também precisa de seus próprios testes de penetração.
Ver originalResponder0
  • Fixado