AA-Briefcase发布:Claude Fable 5夺冠,GLM-5.2挤进前三

robot
摘要生成中
币界网消息,AA-Briefcase发布称,Claude Fable 5在评测中夺冠,GLM-5.2则挤进前三。评测机构Artificial Analysis推出了首个专为大模型智能体设计的长周期知识工作评测基准,涵盖数据科学、产品管理、银行业务运营及重工业战略四个场景,由谷歌、麦肯锡和波士顿咨询的行业专家开发,共设有91项任务,旨在模拟真实复杂的商业项目流。结果显示,Claude Fable 5取得了最高综合评分,Claude Opus 4.8和GLM-5.2分列第二与第三位。尽管Claude Fable 5表现强劲,但在严格的单项任务全对标准下,完美率仅为3%。在开源模型方面,智谱GLM-5.2表现突出,综合评分仅比Claude Opus 4.8低90分,但运行成本不足其25%。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 4
  • 1
  • 分享
评论
请输入评论内容
请输入评论内容
MempoolMaggie
· 6小时前
Claude Fable 5夺冠但完美率3%,这数字挺扎心的,说明长周期任务对AI还是地狱难度。
回复0
三明治预警员
· 6小时前
Opus 4.8老二位置有点尴尬,贵还不稳,Anthropic得想想怎么讲故事了。
回复0
BridgeHopRanger
· 6小时前
开源GLM-5.2性价比杀疯了,分数差90分成本却省75%,企业采购要重新算账了。
回复0
玻璃穹顶观测站
· 6小时前
91项任务覆盖四行业,谷歌麦肯锡背书,这基准的含金量我认。
回复0