Sakana Fugu et Fable 5 comparaison de scores mise en doute, les différences d'échafaudage de test peuvent entraîner un écart de 10 à 20 points.

robot
Création du résumé en cours
ME AI 消息,据 动察 Beating 监测,日本 AI 初创公司 Sakana AI 研发的多智能体协同系统 Fugu Ultra 宣称在科学推理与编程等多项基准测试中击败 Anthropic 旗舰模型 Fable 5,但跑分结论遭到社区普遍质疑。 批评指出,在非统一考场下对比自测数据并不客观。测试跑分高度依赖于运行脚手架(Scaffold/Harness),不同脚手架带来的跑分偏差可达 10 到 20 分,这使得所谓的「超越」在很大程度上只是系统工程调优的产物,而非底层模型能力的跨代超越。 独立的评测数据表明,围绕大模型构建的智能体运行脚手架对最终得分影响巨大。在同一个 Claude Opus 4.5 模型下,仅更换三款不同的开源脚手架,在 SWE-bench Pro 基准测试中的修复率就会出现 50.2% 至 55.4% 的波动。第三方测试机构 Scale AI 的分析进一步证实,提示词模板、尝试次数上限、上下文留存管理以及工具调用集成等运行策略,足以导致同一组模型权重产生 10 到 20 分的跑分偏差。 由于 Sakana AI 和 Anthropic 公布的数据均基于各自专为自家系统调优的闭源脚手架(Vendor Scaffold),而未在标准化的独立第三方环境(如 Scale SEAL)下进行统一测试,数据并不能真实反映出两款模型底层能力的强弱。 (来源:BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire