Лаборатория искусственного интеллекта Стэнфорд опубликовала универсальную проверочную структуру LLM-as-a-Verifier, достигшую передовых результатов в двух бенчмарках

MeNews · 2026-04-10T00:23:19+00:00

Стэнфордская лаборатория искусственного интеллекта выпустила рамочную структуру под названием "LLM-as-a-Verifier" (Большая языковая модель как проверяющий), которая с помощью различных методов достигла наилучших в настоящее время показателей точности, составляющих 86,4% и 77,8% на нескольких бенчмарках. В статье приведены соответствующие ссылки на блог и код.

MeNews

2026-04-10 00:23:19

Генерация тезисов в процессе

ME Новости, 10 апреля (UTC+8), лаборатория искусственного интеллекта Стэнфордского университета (StanfordAILab) недавно опубликовала универсальную верификационную рамочную структуру под названием “LLM-as-a-Verifier”. Эта структура достигает точности 86,4% в бенчмарке Terminal-Bench 2 и 77,8% в бенчмарке SWE-Bench Verified за счет расширения гранулярности оценки, повторной верификации и разложения стандарта, что соответствует текущему передовому уровню (SOTA). В статье приведены ссылки на соответствующий блог и код. (Источник: InFoQ)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

2 Лайков