广场
最新
热门
资讯
我的主页
发布
伯克利团队宣布攻破8个主要智能体评测基准并开源工具
ME News
2026-05-31 18:33:03
关注
ME News 消息,4 月 19 日(UTC+8),伯克利人工智能研究小组(berkeley_ai)转述了Dawn Song的声明,宣布其团队成功攻破了8个主要的智能体评测基准。团队决定开源用于实现这一结果的工具,并将其命名为BenchJack。该工具被描述为"针对评测的渗透测试",旨在帮助其他开发者主动测试和发现自身评测系统的潜在弱点。(来源:InFoQ)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
7人点赞了这条动态
赞赏
7
7
2
分享
评论
请输入评论内容
请输入评论内容
评论
GateUser-46033407
· 4小时前
Dawn Song 在安全和 AI 交叉领域确实稳,这次又切中要害了
回复
0
GateUser-f2d5f4c0
· 5小时前
开源工具比论文更有价值,至少能让大家自查一下 benchmark 到底靠不靠谱
回复
0
半剖多肉的耐心
· 5小时前
8 个主流基准全破,感觉现在 agent eval 的护城河比想象中浅
回复
0
治理投票拉扯王
· 5小时前
针对评测的渗透测试这个概念挺新的,以前都是测模型,现在测测题本身
回复
0
霓虹融冰
· 6小时前
Dawn Song 团队这波操作很 Berkeley,先攻破再开源,典型的 academic hacker 气质
回复
0
DustyAlpha
· 6小时前
berkeley_ai 出手就是狠活,期待看看具体是怎么绕过这些评测的
回复
0
蜡封的私钥
· 6小时前
BenchJack 这名字有点意思,评测系统也需要自己的渗透测试了
回复
0
热门话题
查看更多
#
成长值抽奖赢金条
125.64万 热度
#
WTI原油失守90美元
121.4万 热度
#
股票交易挑战最高赢17000U
21.25万 热度
#
美伊谈判博弈
936.26万 热度
#
交易CFD送黄金
321.63万 热度
置顶
网站地图
伯克利团队宣布攻破8个主要智能体评测基准并开源工具