動態監測 Beating によると、AI 評価機関 Vals AI は第2世代の金融エージェント基準テスト（Finance Agent v2）を発表しました。これは初級金融アナリストのワークフローを模擬したエンドツーエンドのテストで、927問の専門家審査問題を含みます。新バージョンのテストは難易度が大幅に上昇し、GPT 5.5 はわずか51.76％の正答率でトップに立ち、Claude Opus 4.7（51.51％）や Claude Sonnet 4.6（51.03％）と非常に接戦を繰り広げています。

単一の質問応答とは異なり、このテストはモデルに対して数百ページに及ぶ 10-K および 10-Q 財務報告書から関連する段落を自主的に探し出し、年度を跨いだ財務報告の調整を処理し、正確な中間数字を用いて多段階の計算を完了させることを求めています。Vals AI は、「完全正解」だけを求める厳格な採点基準を採用した場合、すべての最先端モデルの正答率は40％を下回ると明かしました。最も難しい「財務モデリング」や「先例分析」のカテゴリーでは、最高得点はわずか23％です。

他のモデルについては、Kimi K2.6 が44.87％で第5位に入り、国内製モデルの中で最高得点を記録しています。次いで、GLM 5.1（44.79％）と DeepSeek V4（44.08％）が続きます。さらに、公式は「最速」タグを Claude Opus 4.7（1回あたり360秒）に授与し、「最コスト節約」タグは GLM 5.1（1回あたり0.62ドル）に与えました。

今回のテストスコアの総体的な低下（前回の Opus 4.7 のスコアは64.4％）は一つの証明です：現在のAIは簡単な検索作業はこなせるようになったものの、特定の業界慣例を遵守し、数字の正確さが極めて求められる金融の深い領域では、依然として人間のアナリストに取って代わることは遠いということです。

4-2.5%

GLM-0.91%

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
GateSquareMayTradingShare
1.63M 人気度
#
IsraelStrikesIranBTCPlunges
46.65K 人気度
#
#DailyPolymarketHotspot
933.03K 人気度
#
JaneStreetReducesBitcoinETFHoldings
102.92K 人気度
#
TrumpVisitsChina
60.91K 人気度

ピン留め

サイトマップ

AIは金融アナリストを置き換えられるか？Vals AIの新バージョンテストは全滅、GPT 5.5の正確率はやっと半数を超える

人気の話題

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChina

ピン留め