Чи може ШІ замінити фінансових аналітиків? Новий тест Vals AI провалився повністю, точність GPT 5.5 ледве перевищує половину

robot
Генерація анотацій у процесі

AIMPACT повідомлення, 14 травня (UTC+8), згідно з моніторингом Датчі Beating, AI-оцінювальна організація Vals AI опублікувала другий поколіннє базове тестування фінансових агентів (Finance Agent v2). Це енд-ту-енд тест, що імітує робочий процес початкового фінансового аналітика, що містить 927 питань, перевірених експертами. Новий тест має значно вищу складність, GPT 5.5 посів перше місце з точністю лише 51.76%, у тісній боротьбі з Claude Opus 4.7 (51.51%) та Claude Sonnet 4.6 (51.03%). На відміну від одноразових запитань, цей тест вимагає від моделі самостійно знаходити релевантні фрагменти у сотнях сторінок фінансових звітів 10-K і 10-Q, обробляти коригування фінансових звітів за різні роки та виконувати багатоступеневі обчислення з точними проміжними цифрами. Vals AI повідомила, що за суворою оцінкою «повністю правильна відповідь», точність усіх передових моделей опустилася нижче 40%; у найскладніших категоріях «фінансове моделювання» та «аналіз прецедентів» найвищий бал становить лише 23%. Щодо інших моделей, Kimi K2.6 посідає п’яте місце з 44.87%, що є найвищим результатом серед вітчизняних моделей; слідом йдуть GLM 5.1 (44.79%) та DeepSeek V4 (44.08%). Крім того, офіційно було присвоєно тег «найшвидший» Claude Opus 4.7 (час однієї відповіді 360 секунд), а тег «найекономніший» отримала GLM 5.1 (вартість однієї відповіді 0.62 долара). Загальний спад результатів цього тесту (передня версія тесту з Opus 4.7 мала 64.4%) доводить одне: сучасний штучний інтелект вже може справлятися з простими пошуками, але у глибоких фінансових сферах, що вимагають дотримання галузевих стандартів і високої точності цифр, він ще дуже далекий від здатності замінити людських аналітиків. (Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено