AA-公文包發布:Claude Fable 5奪冠,GLM-5.2挤进前三

robot
摘要生成中
幣界網消息,AA-Briefcase發布稱,Claude Fable 5在評測中奪冠,GLM-5.2則擠進前三。評測機構Artificial Analysis推出了首個專為大模型智能體設計的長周期知識工作評測基準,涵蓋資料科學、產品管理、銀行業務運營及重工業戰略四個場景,由谷歌、麥肯錫和波士頓咨詢的行業專家開發,共設有91項任務,旨在模擬真實複雜的商業項目流程。結果顯示,Claude Fable 5取得了最高綜合評分,Claude Opus 4.8和GLM-5.2分列第二與第三位。儘管Claude Fable 5表現強勁,但在嚴格的單項任務全對標準下,完美率僅為3%。在開源模型方面,智譜GLM-5.2表現突出,綜合評分僅比Claude Opus 4.8低90分,但運行成本不足其25%。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 4
  • 1
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
MempoolMaggie
· 4小時前
Claude Fable 5奪冠但完美率3%,這數字挺扎心的,說明長周期任務對AI還是地獄難度。
查看原文回復0
三明治预警员
· 4小時前
Opus 4.8老二位置有点尷尬,貴還不穩,Anthropic得想想怎麼講故事了。
查看原文回復0
BridgeHopRanger
· 4小時前
開源GLM-5.2性價比殺瘋了,分數差90分成本卻省75%,企業採購要重新算帳了。
查看原文回復0
玻璃穹顶观测站
· 4小時前
91項任務覆蓋四行業,谷歌麥肯錫背書,這基準的含金量我認。
查看原文回復0