10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
AI能取代金融分析师?Vals AI新版测试全军覆没,GPT 5.5准确率勉强过半
据动察 Beating 监测,AI 评测机构 Vals AI 发布了第二代金融智能体基准测试(Finance Agent v2)。这是一个模拟初级金融分析师工作流的端到端测试,包含 927 道专家审核问题。新版测试的难度大幅飙升,GPT 5.5 仅以 51.76% 的准确率登顶,与 Claude Opus 4.7(51.51%)和 Claude Sonnet 4.6(51.03%)的比分极度胶着。
与单轮问答不同,该测试要求模型在数百页的 10-K 和 10-Q 财报中自主寻找相关段落,处理跨年份财务报表调整,并带着精确的中间数字完成多步计算。Vals AI 透露,如果采用「必须完全答对」的严格评分标准,所有前沿模型的准确率全部跌破 40%;在最难的「财务建模」和「先例分析」类别中,最高分仅有 23%。
在其他模型方面,Kimi K2.6 以 44.87% 排在第五,是得分最高的国产模型;紧随其后的是 GLM 5.1(44.79%)和 DeepSeek V4(44.08%)。此外,官方将「最快速度」标签授予了 Claude Opus 4.7(单次耗时 360 秒),GLM 5.1 则拿下了「最省预算」标签(单次成本 0.62 美元)。
这次测试得分的集体下挫(上一代测试中 Opus 4.7 得分为 64.4%)证明了一点:目前的 AI 已经可以搞定简单的检索,但在需要遵守特定行业惯例、且对数字精准度要求极高的金融深水区,还远远无法取代人类分析师。