广场
最新
热门
资讯
我的主页
发布
Sakana Fugu与Fable 5跑分对比遭质疑,测试脚手架差异可致10-20分偏差
ME News
2026-06-26 12:06:49
关注
摘要生成中
ME AI
消息,据 动察 Beating 监测,日本 AI 初创公司 Sakana AI 研发的多智能体协同系统 Fugu Ultra 宣称在科学推理与编程等多项基准测试中击败 Anthropic 旗舰模型 Fable 5,但跑分结论遭到社区普遍质疑。 批评指出,在非统一考场下对比自测数据并不客观。测试跑分高度依赖于运行脚手架(Scaffold/Harness),不同脚手架带来的跑分偏差可达 10 到 20 分,这使得所谓的「超越」在很大程度上只是系统工程调优的产物,而非底层模型能力的跨代超越。 独立的评测数据表明,围绕大模型构建的智能体运行脚手架对最终得分影响巨大。在同一个 Claude Opus 4.5 模型下,仅更换三款不同的开源脚手架,在 SWE-bench Pro 基准测试中的修复率就会出现 50.2% 至 55.4% 的波动。第三方测试机构 Scale AI 的分析进一步证实,提示词模板、尝试次数上限、上下文留存管理以及工具调用集成等运行策略,足以导致同一组模型权重产生 10 到 20 分的跑分偏差。 由于 Sakana AI 和 Anthropic 公布的数据均基于各自专为自家系统调优的闭源脚手架(Vendor Scaffold),而未在标准化的独立第三方环境(如 Scale SEAL)下进行统一测试,数据并不能真实反映出两款模型底层能力的强弱。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
0成本拿2股SK海力士
154.34万 热度
#
美光市值超越Meta跻身全美前十
16.79万 热度
#
法国VS挪威
32.21万 热度
#
美国5月PCE通胀升至4.1%创三年新高
55万 热度
#
USD1链上质押享年化9.48%
98.11万 热度
置顶
网站地图
Sakana Fugu与Fable 5跑分对比遭质疑,测试脚手架差异可致10-20分偏差