L'équipe de Berkeley annonce avoir cassé 8 principaux benchmarks d'évaluation d'agents intelligents et avoir publié les outils en open source

ME News Actualités, le 19 avril (UTC+8), le groupe de recherche en intelligence artificielle de Berkeley (berkeley_ai) a relayé la déclaration de Dawn Song, annonçant que son équipe avait réussi à percer 8 principaux benchmarks d'évaluation d'agents intelligents. L'équipe a décidé de rendre open source les outils utilisés pour atteindre ce résultat, et les a nommés BenchJack. Cet outil est décrit comme une "pénétration de test pour l'évaluation", visant à aider d'autres développeurs à tester activement et à découvrir les vulnérabilités potentielles de leurs systèmes d'évaluation. (Source : InFoQ)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 9
  • 1
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
DrinkWaterBeforeTheMarket
· Il y a 14m
Outils open source + méthodologie publique, c'est ainsi que le monde académique devrait être
Voir l'originalRépondre0
ElevatorMeme
· Il y a 2h
Curieux de savoir comment ils ont été précisément attaqués, j'attends le papier.
Voir l'originalRépondre0
FrontrunFail
· Il y a 3h
8 principaux benchmarks majeurs complètement battus, la communauté d’évaluation va trembler
Voir l'originalRépondre0
AutumnSlopeCabin
· Il y a 3h
Concernant les tests de pénétration liés à l'évaluation, ce concept est plutôt nouveau.
Voir l'originalRépondre0
OutsiderOfZhiyuandao
· Il y a 4h
L'équipe de Dawn Song intervient, je reconnais la valeur de cette contribution
Voir l'originalRépondre0
ChaintraceAuntie
· Il y a 4h
Le « Miroir à démons » pour l’évaluation des agents est arrivé
Voir l'originalRépondre0
SnackFi
· Il y a 4h
Chercher activement ses faiblesses est préférable à subir passivement des coups, soutenez cet esprit open source.
Voir l'originalRépondre0
ColdWalletFitnessCoach
· Il y a 4h
À l'avenir, pour consulter le tableau de classement, il faut d'abord demander : Avez-vous évité BenchJack ?
Voir l'originalRépondre0
HedgeHedgeBaby
· Il y a 4h
BenchJack ce nom a quelque chose, benchmark + hijack, n'est-ce pas
Voir l'originalRépondre0
Afficher plus
  • Épinglé