По данным мониторинга Beating, агентство искусственного интеллекта Vals AI опубликовало второе поколение теста на финансового агента (Finance Agent v2). Это сквозной тест, моделирующий рабочий процесс начального финансового аналитика, включающий 927 вопросов экспертной проверки. Новая версия теста значительно усложнилась, GPT 5.5 занял первое место с точностью 51,76%, что очень близко к Claude Opus 4.7 (51,51%) и Claude Sonnet 4.6 (51,03%).

В отличие от однопроходных вопросов, этот тест требует от модели самостоятельного поиска релевантных фрагментов в сотнях страниц финансовых отчетов 10-K и 10-Q, обработки корректировок финансовых отчетов за разные годы и выполнения многошаговых расчетов с точными промежуточными цифрами. Vals AI сообщил, что при использовании строгого стандарта оценки «обязательно полностью правильный ответ», точность всех передовых моделей падает ниже 40%; в самых сложных категориях «Финансовое моделирование» и «Анализ прецедентов» максимальный результат составляет всего 23%.

Что касается других моделей, Kimi K2.6 занимает пятое место с 44,87%, являясь лучшей отечественной моделью; за ней следуют GLM 5.1 (44,79%) и DeepSeek V4 (44,08%). Кроме того, официальный тег «самая быстрая скорость» получил Claude Opus 4.7 (время одного ответа 360 секунд), а тег «самая экономичная по бюджету» — GLM 5.1 (стоимость одного ответа 0,62 доллара).

Общий спад результатов этого теста (в предыдущем поколении Opus 4.7 набрал 64,4%) доказывает одну вещь: современные ИИ уже умеют справляться с простыми задачами поиска, но в глубоком финансовом анализе, требующем соблюдения отраслевых стандартов и высокой точности цифр, они еще очень далеки от замены человеческих аналитиков.

40,3%

GLM1,19%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateSquareMayTradingShare
1.63M Популярность
#
IsraelStrikesIranBTCPlunges
46.65K Популярность
#
#DailyPolymarketHotspot
933.37K Популярность
#
JaneStreetReducesBitcoinETFHoldings
103.11K Популярность
#
TrumpVisitsChina
61.12K Популярность

Закреплено

Карта сайта

Может ли ИИ заменить финансовых аналитиков? Новая версия Vals AI полностью провалилась в тестах, точность GPT 5.5 едва превышает половину

Популярные темы

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChina

Закреплено