BenchJack foi aberto, a vulnerabilidade de segurança do sistema de avaliação finalmente foi revelada de forma sistemática, isso é mais significativo do que subir posições na classificação.

Ver original
MeNews
Equipe de Berkeley anuncia a quebra de 8 principais benchmarks de avaliação de agentes inteligentes e lança ferramentas de código aberto
ME News Notícias, 19 de abril (UTC+8), o grupo de pesquisa em inteligência artificial de Berkeley (berkeley_ai) reproduziu a declaração de Dawn Song, anunciando que sua equipe conseguiu superar 8 principais benchmarks de avaliação de agentes inteligentes. A equipe decidiu tornar as ferramentas usadas para alcançar esse resultado de código aberto, nomeando-as BenchJack. A ferramenta é descrita como "teste de penetração para avaliações", com o objetivo de ajudar outros desenvolvedores a testar proativamente e descobrir possíveis vulnerabilidades em seus próprios sistemas de avaliação. (Fonte: InFoQ)
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado