广场
最新
热门
资讯
我的主页
发布
伯克利团队宣布攻破8个主要智能体评测基准并开源工具
ME News
2026-05-31 16:53:18
关注
ME News 消息,4 月 19 日(UTC+8),伯克利人工智能研究小组(berkeley_ai)转述了Dawn Song的声明,宣布其团队成功攻破了8个主要的智能体评测基准。团队决定开源用于实现这一结果的工具,并将其命名为BenchJack。该工具被描述为"针对评测的渗透测试",旨在帮助其他开发者主动测试和发现自身评测系统的潜在弱点。(来源:InFoQ)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
9人点赞了这条动态
赞赏
9
9
1
分享
评论
请输入评论内容
请输入评论内容
评论
开盘先喝水
· 6小时前
工具开源 + 方法论公开,这才是学术圈该有的样子
回复
0
电梯间的迷因
· 8小时前
好奇具体是怎么攻破的,等论文
回复
0
FrontrunFail
· 9小时前
8个主流基准全破,评测界要地震了
回复
0
秋坡小木屋
· 9小时前
针对评测的渗透测试,这个概念挺新鲜的
回复
0
纸鸢DAO边缘人
· 10小时前
Dawn Song 团队出手,这含金量我认
回复
0
Chaintrace Auntie
· 10小时前
智能体评测的「照妖镜」来了
回复
0
SnackFi
· 10小时前
主动找弱点比被动挨打好,支持这种开源精神
回复
0
冷钱包健身教练
· 10小时前
以后看 leaderboard 得先问一句:防 BenchJack 了吗
回复
0
HedgeHedgeBaby
· 10小时前
BenchJack 这名字有点东西,benchmark + hijack 是吧
回复
0
查看更多
热门话题
查看更多
#
Gate真实股票交易正式推出
3448.39万 热度
#
成长值抽奖赢金条
124.77万 热度
#
股票交易挑战最高赢17000U
21.75万 热度
#
美伊谈判博弈
936.36万 热度
#
交易CFD送黄金
321.86万 热度
置顶
网站地图
伯克利团队宣布攻破8个主要智能体评测基准并开源工具