廣場
最新
熱門
新聞
我的主頁
發布
伯克利團隊宣布攻破8個主要智能體評測基準並開源工具
ME News
2026-05-31 16:53:18
關注
ME News 消息,4 月 19 日(UTC+8),伯克利人工智能研究小组(berkeley_ai)轉述了Dawn Song的聲明,宣布其團隊成功攻破了8個主要的智能體評測基準。團隊決定開源用於實現這一結果的工具,並將其命名為BenchJack。該工具被描述為"針對評測的滲透測試",旨在幫助其他開發者主動測試和發現自身評測系統的潛在弱點。(來源:InFoQ)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
8人按讚了這條動態
打賞
8
9
1
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
开盘先喝水
· 2小時前
工具開源 + 方法論公開,這才是學術圈該有的樣子
查看原文
回復
0
电梯间的迷因
· 5小時前
好奇具体是怎麼攻破的,等論文
查看原文
回復
0
FrontrunFail
· 6小時前
8個主流基準全破,評測界要地震了
查看原文
回復
0
秋坡小木屋
· 6小時前
針對評測的滲透測試,這個概念挺新鮮的
查看原文
回復
0
纸鸢DAO边缘人
· 6小時前
Dawn Song 團隊出手,這含金量我認同
查看原文
回復
0
Chaintrace Auntie
· 6小時前
智能體評測的「照妖鏡」來了
查看原文
回復
0
SnackFi
· 6小時前
主動找弱點比被動挨打好,支持這種開源精神
查看原文
回復
0
冷钱包健身教练
· 6小時前
以後看排行榜得先問一句:防 BenchJack 了嗎
查看原文
回復
0
HedgeHedgeBaby
· 6小時前
BenchJack 這名字有點東西,benchmark + hijack 是吧
查看原文
回復
0
查看更多
熱門話題
查看更多
#
成長值抽獎贏金條
125.54萬 熱度
#
WTI原油失守90美元
121.35萬 熱度
#
股票交易挑戰最高贏17000U
21.47萬 熱度
#
美伊談判博弈
936.2萬 熱度
#
交易CFD送黃金
321.67萬 熱度
已置頂
網站地圖
伯克利團隊宣布攻破8個主要智能體評測基準並開源工具