L'équipe de Berkeley annonce avoir brisé 8 principaux benchmarks d'évaluation d'agents intelligents et avoir publié les outils en open source

ME News Actualités, le 19 avril (UTC+8), le groupe de recherche en intelligence artificielle de Berkeley (berkeley_ai) a relayé la déclaration de Dawn Song, annonçant que son équipe avait réussi à percer 8 principaux benchmarks d'évaluation d'agents intelligents. L'équipe a décidé de rendre open source les outils utilisés pour atteindre ce résultat, et les a nommés BenchJack. Cet outil est décrit comme une "pénétration de test pour l'évaluation", visant à aider d'autres développeurs à tester activement et à découvrir les faiblesses potentielles de leurs systèmes d'évaluation. (Source : InFoQ)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 7
  • 2
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
GateUser-46033407
· Il y a 1h
Dawn Song est vraiment solide dans le domaine croisé de la sécurité et de l'IA, cette fois encore elle a frappé juste
Voir l'originalRépondre0
GateUser-f2d5f4c0
· Il y a 2h
Les outils open source ont plus de valeur que les articles, au moins ils permettent à tout le monde de vérifier si le benchmark est fiable ou non.
Voir l'originalRépondre0
ThePatienceRequiredFor
· Il y a 2h
8 principaux benchmarks entièrement cassés, je pense que la barrière de l’évaluation des agents est plus faible que ce que j’imaginais
Voir l'originalRépondre0
GovernanceVotingTug-Of-WarKing
· Il y a 2h
Le concept de test d'intrusion axé sur l'évaluation est assez nouveau, auparavant on testait des modèles, maintenant on teste directement les questions elles-mêmes.
Voir l'originalRépondre0
NeonIceMelt
· Il y a 2h
L'équipe de Dawn Song a fait preuve d'une approche très Berkeley, d'abord la percée puis l'ouverture du code, un trait typique du hacker académique.
Voir l'originalRépondre0
DustyAlpha
· Il y a 2h
berkeley_ai frappe fort, j'ai hâte de voir comment ils contournent précisément ces évaluations
Voir l'originalRépondre0
Wax-SealedPrivateKey
· Il y a 2h
BenchJack, ce nom est un peu intéressant, le système d'évaluation a également besoin de ses propres tests de pénétration.
Voir l'originalRépondre0
  • Épinglé