Может ли ИИ заменить финансовых аналитиков? Новая версия Vals AI полностью провалилась в тестах, точность GPT 5.5 едва превышает половину

robot
Генерация тезисов в процессе

По данным мониторинга Beating, агентство искусственного интеллекта Vals AI опубликовало второе поколение теста на финансового агента (Finance Agent v2). Это сквозной тест, моделирующий рабочий процесс начального финансового аналитика, включающий 927 вопросов экспертной проверки. Новая версия теста значительно усложнилась, GPT 5.5 занял первое место с точностью 51,76%, что очень близко к Claude Opus 4.7 (51,51%) и Claude Sonnet 4.6 (51,03%).

В отличие от однопроходных вопросов, этот тест требует от модели самостоятельного поиска релевантных фрагментов в сотнях страниц финансовых отчетов 10-K и 10-Q, обработки корректировок финансовых отчетов за разные годы и выполнения многошаговых расчетов с точными промежуточными цифрами. Vals AI сообщил, что при использовании строгого стандарта оценки «обязательно полностью правильный ответ», точность всех передовых моделей падает ниже 40%; в самых сложных категориях «Финансовое моделирование» и «Анализ прецедентов» максимальный результат составляет всего 23%.

Что касается других моделей, Kimi K2.6 занимает пятое место с 44,87%, являясь лучшей отечественной моделью; за ней следуют GLM 5.1 (44,79%) и DeepSeek V4 (44,08%). Кроме того, официальный тег «самая быстрая скорость» получил Claude Opus 4.7 (время одного ответа 360 секунд), а тег «самая экономичная по бюджету» — GLM 5.1 (стоимость одного ответа 0,62 доллара).

Общий спад результатов этого теста (в предыдущем поколении Opus 4.7 набрал 64,4%) доказывает одну вещь: современные ИИ уже умеют справляться с простыми задачами поиска, но в глубоком финансовом анализе, требующем соблюдения отраслевых стандартов и высокой точности цифр, они еще очень далеки от замены человеческих аналитиков.

40,3%
GLM1,19%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено