Sakana Fugu與Fable 5跑分對比遭質疑,測試腳手架差異可致10-20分偏差

robot
摘要生成中
ME AI 消息,據 動察 Beating 監測,日本 AI 初創公司 Sakana AI 研發的多智能體協同系統 Fugu Ultra 宣稱在科學推理與編程等多項基準測試中擊敗 Anthropic 旗艦模型 Fable 5,但跑分結論遭到社區普遍質疑。 批評指出,在非統一考場下對比自測數據並不客觀。測試跑分高度依賴於運行腳手架(Scaffold/Harness),不同腳手架帶來的跑分偏差可達 10 到 20 分,這使得所謂的「超越」在很大程度上只是系統工程調優的產物,而非底層模型能力的跨代超越。 獨立的評測數據表明,圍繞大模型構建的智能體運行腳手架對最終得分影響巨大。在同一個 Claude Opus 4.5 模型下,僅更換三款不同的開源腳手架,在 SWE-bench Pro 基準測試中的修復率就會出現 50.2% 至 55.4% 的波動。第三方測試機構 Scale AI 的分析進一步證實,提示詞模板、嘗試次數上限、上下文留存管理以及工具調用集成等運行策略,足以導致同一組模型權重產生 10 到 20 分的跑分偏差。 由於 Sakana AI 和 Anthropic 公佈的數據均基於各自專為自家系統調優的閉源腳手架(Vendor Scaffold),而未在標準化的獨立第三方環境(如 Scale SEAL)下進行統一測試,數據並不能真實反映出兩款模型底層能力的強弱。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆