AI 能取代金融分析師?Vals AI新版測試全軍覆沒,GPT 5.5準確率勉強過半

robot
摘要生成中
據動察 Beating 監測,AI 評測機構 Vals AI 發布了第二代金融智能體基準測試(Finance Agent v2)。這是一個模擬初級金融分析師工作流程的端到端測試,包含 927 道專家審核問題。新版測試的難度大幅飆升,GPT 5.5 僅以 51.76% 的準確率登頂,與 Claude Opus 4.7(51.51%)和 Claude Sonnet 4.6(51.03%)的比分極度膠著。

與單輪問答不同,該測試要求模型在數百頁的 10-K 和 10-Q 財報中自主尋找相關段落,處理跨年份財務報表調整,並帶著精確的中間數字完成多步計算。Vals AI 透露,如果採用「必須完全答對」的嚴格評分標準,所有前沿模型的準確率全部跌破 40%;在最難的「財務建模」和「先例分析」類別中,最高分僅有 23%。

在其他模型方面,Kimi K2.6 以 44.87% 排在第五,是得分最高的國產模型;緊隨其後的是 GLM 5.1(44.79%)和 DeepSeek V4(44.08%)。此外,官方將「最快速度」標籤授予了 Claude Opus 4.7(單次耗時 360 秒),GLM 5.1 則拿下了「最省預算」標籤(單次成本 0.62 美元)。

這次測試得分的集體下挫(上一代測試中 Opus 4.7 得分為 64.4%)證明了一點:目前的 AI 已經可以搞定簡單的檢索,但在需要遵守特定行業慣例、且對數字精準度要求極高的金融深水區,還遠遠無法取代人類分析師。
4-1.96%
GLM-3.96%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆