廣場
最新
熱門
新聞
我的主頁
發布
Sakana Fugu與Fable 5跑分對比遭質疑,測試腳手架差異可致10-20分偏差
ME News
2026-06-26 12:06:49
關注
摘要生成中
ME AI
消息,據 動察 Beating 監測,日本 AI 初創公司 Sakana AI 研發的多智能體協同系統 Fugu Ultra 宣稱在科學推理與編程等多項基準測試中擊敗 Anthropic 旗艦模型 Fable 5,但跑分結論遭到社區普遍質疑。 批評指出,在非統一考場下對比自測數據並不客觀。測試跑分高度依賴於運行腳手架(Scaffold/Harness),不同腳手架帶來的跑分偏差可達 10 到 20 分,這使得所謂的「超越」在很大程度上只是系統工程調優的產物,而非底層模型能力的跨代超越。 獨立的評測數據表明,圍繞大模型構建的智能體運行腳手架對最終得分影響巨大。在同一個 Claude Opus 4.5 模型下,僅更換三款不同的開源腳手架,在 SWE-bench Pro 基準測試中的修復率就會出現 50.2% 至 55.4% 的波動。第三方測試機構 Scale AI 的分析進一步證實,提示詞模板、嘗試次數上限、上下文留存管理以及工具調用集成等運行策略,足以導致同一組模型權重產生 10 到 20 分的跑分偏差。 由於 Sakana AI 和 Anthropic 公佈的數據均基於各自專為自家系統調優的閉源腳手架(Vendor Scaffold),而未在標準化的獨立第三方環境(如 Scale SEAL)下進行統一測試,數據並不能真實反映出兩款模型底層能力的強弱。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
0成本拿2股SK海力士
154.34萬 熱度
#
美光市值超越Meta躋身全美前十
16.79萬 熱度
#
法國VS挪威
32.21萬 熱度
#
美國5月PCE通膨升至4.1%創三年新高
55萬 熱度
#
USD1鏈上質押享年化9.48%
98.11萬 熱度
已置頂
網站地圖
Sakana Fugu與Fable 5跑分對比遭質疑,測試腳手架差異可致10-20分偏差