AIMPACT メッセージ、5 月 14 日（UTC+8）、動察 Beating 監測によると、AI 評価機関 Vals AI は第2世代金融エージェント基準テスト（Finance Agent v2）を発表しました。これは初級金融アナリストのワークフローを模擬したエンドツーエンドのテストで、927の専門家審査問題を含みます。新バージョンのテストの難易度は大幅に上昇し、GPT 5.5 はわずか 51.76% の正確率でトップに立ち、Claude Opus 4.7（51.51%）や Claude Sonnet 4.6（51.03%）と激しい接戦を繰り広げています。単一の質問応答とは異なり、このテストではモデルが数百ページに及ぶ 10-K や 10-Q の財務報告書から関連する段落を自主的に探し出し、年度を跨いだ財務調整を処理し、正確な中間数字を持って多段階の計算を完了することが求められます。Vals AI は、厳格な採点基準「完全正解必須」を採用した場合、すべての最先端モデルの正確率が40%を下回ると明らかにしました。最も難しい「財務モデリング」や「先例分析」のカテゴリーでは、最高得点はわずか23%です。他のモデルについては、Kimi K2.6 が 44.87% で第5位に入り、国内製モデルの中で最高得点を獲得しています。次いで GLM 5.1（44.79%）と DeepSeek V4（44.08%）が続きます。さらに、公式は「最速」タグを Claude Opus 4.7（1回あたり所要時間360秒）に授与し、「最もコスト効率が良い」タグは GLM 5.1（1回あたりコスト0.62ドル）に与えました。今回のテストスコアの総体的な低下（前世代の Opus 4.7 のスコアは64.4%）は一つの証明となっています：現在のAIは簡単な検索作業はこなせるものの、特定の業界慣行を遵守し、数字の正確さが極めて重要な金融の深い領域では、人間のアナリストに遠く及ばないということです。（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメントを追加

コメントなし

人気の話題
もっと見る
#
GateSquareMayTradingShare
1.94M 人気度
#
CLARITYActPassesSenateCommittee
3.58M 人気度
#
IsraelStrikesIranBTCPlunges
47.35K 人気度
#
#DailyPolymarketHotspot
976.02K 人気度
#
BitcoinVShapedReversalBack
227.15M 人気度

ピン留め

サイトマップ

AIは金融アナリストを置き換えられるか？ Vals AIの新バージョンテストは全滅、GPT 5.5の正確率はやっと半数を超える程度

人気の話題

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

ピン留め

AIは金融アナリストを置き換えられるか？
Vals AIの新バージョンテストは全滅、GPT 5.5の正確率はやっと半数を超える程度