伯克利团队宣布攻破8个主要智能体评测基准并开源工具

ME News 消息,4 月 19 日(UTC+8),伯克利人工智能研究小组(berkeley_ai)转述了Dawn Song的声明,宣布其团队成功攻破了8个主要的智能体评测基准。团队决定开源用于实现这一结果的工具,并将其命名为BenchJack。该工具被描述为"针对评测的渗透测试",旨在帮助其他开发者主动测试和发现自身评测系统的潜在弱点。(来源:InFoQ)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 7
  • 2
  • 分享
评论
请输入评论内容
请输入评论内容
GateUser-46033407
· 4小时前
Dawn Song 在安全和 AI 交叉领域确实稳,这次又切中要害了
回复0
GateUser-f2d5f4c0
· 5小时前
开源工具比论文更有价值,至少能让大家自查一下 benchmark 到底靠不靠谱
回复0
半剖多肉的耐心
· 5小时前
8 个主流基准全破,感觉现在 agent eval 的护城河比想象中浅
回复0
治理投票拉扯王
· 5小时前
针对评测的渗透测试这个概念挺新的,以前都是测模型,现在测测题本身
回复0
霓虹融冰
· 6小时前
Dawn Song 团队这波操作很 Berkeley,先攻破再开源,典型的 academic hacker 气质
回复0
DustyAlpha
· 6小时前
berkeley_ai 出手就是狠活,期待看看具体是怎么绕过这些评测的
回复0
蜡封的私钥
· 6小时前
BenchJack 这名字有点意思,评测系统也需要自己的渗透测试了
回复0
  • 置顶