Equipe de Berkeley anuncia a quebra de 8 principais benchmarks de avaliação de agentes inteligentes e libera as ferramentas de código aberto

ME News Notícias, 19 de abril (UTC+8), o grupo de pesquisa em inteligência artificial de Berkeley (berkeley_ai) reproduziu a declaração de Dawn Song, anunciando que sua equipe conseguiu superar 8 principais benchmarks de avaliação de agentes inteligentes. A equipe decidiu tornar as ferramentas usadas para alcançar esse resultado de código aberto, nomeando-as BenchJack. A ferramenta é descrita como "teste de penetração para avaliações", com o objetivo de ajudar outros desenvolvedores a testar proativamente e descobrir possíveis vulnerabilidades em seus próprios sistemas de avaliação. (Fonte: InFoQ)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 9
  • 1
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
DrinkWaterBeforeTheMarket
· 19m atrás
Ferramentas de código aberto + metodologia divulgada, essa é a postura que o meio acadêmico deve ter
Ver originalResponder0
ElevatorMeme
· 2h atrás
Estou curioso para saber exatamente como foi invadido, aguardo o artigo.
Ver originalResponder0
FrontrunFail
· 3h atrás
8 principais benchmarks totalmente quebrados, o mundo de avaliação vai tremer
Ver originalResponder0
AutumnSlopeCabin
· 4h atrás
Para testes de penetração voltados para avaliação, esse conceito é bastante novo.
Ver originalResponder0
OutsiderOfZhiyuandao
· 4h atrás
A equipe Dawn Song entrou em ação, e eu reconheço o valor que isso representa
Ver originalResponder0
ChaintraceAuntie
· 4h atrás
O "Espelho Mágico" para avaliação de agentes inteligentes chegou
Ver originalResponder0
SnackFi
· 4h atrás
Procurar ativamente por fraquezas é melhor do que ser atingido passivamente, apoie esse espírito de código aberto.
Ver originalResponder0
ColdWalletFitnessCoach
· 4h atrás
De agora em diante, ao verificar o placar, primeiro pergunte: Você se protegeu contra o BenchJack?
Ver originalResponder0
HedgeHedgeBaby
· 4h atrás
BenchJack esse nome tem um pouco de peso, benchmark + hijack, não é?
Ver originalResponder0
Ver projetos
  • Fixado