За даними моніторингу Beating, AI-оцінювальна організація Vals AI опублікувала другий поколінний тест на фінансового агента (Finance Agent v2). Це енд-ту-енд тест, що імітує робочий процес початкового фінансового аналітика, включаючи 927 експертних запитань. Новий тест значно ускладнився, GPT 5.5 посів перше місце з точністю лише 51.76%, у тісній боротьбі з Claude Opus 4.7 (51.51%) та Claude Sonnet 4.6 (51.03%).

На відміну від одноразових питань, цей тест вимагає від моделі самостійно знаходити відповідні фрагменти у сотнях сторінок фінансових звітів 10-K і 10-Q, обробляти коригування фінансових звітів за різні роки та виконувати багатоступінчасті обчислення з точними проміжними цифрами. Vals AI повідомила, що за суворою оцінкою «повністю правильно відповісти», точність усіх передових моделей опустилася нижче 40%; у найскладніших категоріях «фінансове моделювання» та «аналіз прецедентів» найвищий бал становить лише 23%.

Щодо інших моделей, Kimi K2.6 посіла п’яте місце з 44.87%, що є найвищим результатом серед вітчизняних моделей; слідом йдуть GLM 5.1 (44.79%) та DeepSeek V4 (44.08%). Крім того, офіційно було присвоєно тег «найшвидший» Claude Opus 4.7 (час одного запиту 360 секунд), а тег «найекономніший» отримала GLM 5.1 (вартість одного запиту 0.62 долара).

Загальне падіння результатів цього тесту (у попередньому поколінні Opus 4.7 показав 64.4%) доводить одне: сучасний AI вже здатен справлятися з простими пошуками, але у глибоких фінансових сферах, що вимагають дотримання галузевих стандартів і високої точності цифр, він ще дуже далекий від здатності замінити людських аналітиків.

4-2,5%

GLM-0,91%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareMayTradingShare
1.63M Популярність
#
IsraelStrikesIranBTCPlunges
46.65K Популярність
#
#DailyPolymarketHotspot
933.05K Популярність
#
JaneStreetReducesBitcoinETFHoldings
102.92K Популярність
#
TrumpVisitsChina
60.91K Популярність

Закріплено

карта сайту

Чи може ШІ замінити фінансових аналітиків? Новий тест Vals AI провалився повністю, точність GPT 5.5 ледве перевищує половину

Популярні теми

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChina

Закріплено