Может ли ИИ заменить финансовых аналитиков? Новая версия Vals AI полностью провалилась в тестах, точность GPT 5.5 едва превышает половину

robot
Генерация тезисов в процессе

AIMPACT сообщение, 14 мая (UTC+8), согласно мониторингу Beating от 动察, агентство оценки ИИ Vals AI опубликовало второй поколение теста на финансового интеллектуала (Finance Agent v2). Это сквозной тест, моделирующий рабочий процесс начального финансового аналитика, включающий 927 вопросов экспертной проверки. Новая версия теста значительно усложнилась, GPT 5.5 занял первое место с точностью 51.76%, очень близко к Claude Opus 4.7 (51.51%) и Claude Sonnet 4.6 (51.03%). В отличие от однопроходных вопросов, этот тест требует от модели самостоятельного поиска релевантных параграфов в сотнях страниц финансовых отчетов 10-K и 10-Q, обработки корректировок финансовых отчетов по годам и выполнения многошаговых расчетов с точными промежуточными цифрами. Vals AI сообщил, что при использовании строгого стандарта оценки «обязательно полностью правильный ответ», точность всех передовых моделей падает ниже 40%; в самых сложных категориях «финансовое моделирование» и «анализ прецедентов» максимальный балл составляет всего 23%. В других моделях Kimi K2.6 занимает пятое место с 44.87%, являясь лучшей отечественной моделью; за ней следуют GLM 5.1 (44.79%) и DeepSeek V4 (44.08%). Кроме того, официально присвоены теги «самая быстрая» Claude Opus 4.7 (время одного ответа 360 секунд) и «самая экономичная» GLM 5.1 (стоимость одного ответа 0.62 доллара). Коллективное снижение результатов этого теста (в предыдущем поколении Opus 4.7 набрал 64.4%) доказывает одну вещь: современные ИИ уже могут справляться с простым поиском информации, но в глубоком финансовом анализе, требующем соблюдения отраслевых стандартов и высокой точности цифр, они еще очень далеки от замены человека-аналитика. (Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено