Фреймворк BinEval использует вопросы с ответами "да/нет" для автоматической оценки AI, решая проблемы завышения оценок и непрозрачности судейской модели.

robot
Генерация тезисов в процессе
Новости CoinWorld: фреймворк BinEval автоматически оценивает ИИ с помощью вопросов «да/нет», чтобы решить проблемы ложных заявлений о полных баллах и непрозрачности моделей-судей. Исследовательская группа Capital One предложила этот фреймворк, который разбивает сложные критерии оценки на простые вопросы «да или нет», гарантируя, что модель оценки отвечает на каждый из них, а затем вычисляет балл на основе доли правильных ответов. В тестах на трех популярных наборах данных оценки качества BinEval с использованием больших моделей, таких как Claude Sonnet 4, соответствовали или превосходили такие основные инструменты оценки, как Unieval, особенно в выявлении ответов, которые выглядят связными, но содержат фактические ошибки. На примере оценки реферата, касающегося перехвата самолета, старый ИИ-судья, оценивавший только поверхностные аспекты, поставил полный балл 5,0, в то время как BinEval через семь вопросов «да/нет» выявил четыре фактические ошибки и поставил 1,57 балла, что близко к человеческому баллу 2,0. Эксперименты показали, что оптимизация обратной связи может повысить соблюдение формата и структуры предложений на 17 процентных пунктов, но для таких «жестких» требований, как математические вычисления, например ограничение количества слов, инструменты оптимизации по-прежнему бессильны.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 5
  • 1
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
L2NightCourier
· 2ч назад
17% формат улучшился неплохо, но ограничение по количеству слов не удаётся — кажется, жёсткие правила проще реализовать, а гибкое понимание сложно.
Посмотреть ОригиналОтветить0
WalletPermissionAdministrator
· 2ч назад
Дизайн вопросов типа «да/нет» действительно умен, превращая субъективную оценку в аудируемый объективный вопрос, напрямую сжимая пространство для ложных отчетов.
Посмотреть ОригиналОтветить0
DepegDaydream
· 2ч назад
Множественные наборы данных близки или превосходят Unieval, эта способность к переносу чего-то стоит, это не игрушка переобучения.
Посмотреть ОригиналОтветить0
ForkingDrama
· 2ч назад
1.57 против 5.0 — этот разрыв слишком реален, иллюзорные тексты с мнимой гладкостью наконец могут быть выявлены.
Посмотреть ОригиналОтветить0
MosaicBow
· 2ч назад
Семь вопросов разбивают оценку, что гораздо точнее общего шкала от 1 до 5. Человеческая разметка 2.0 указывает на правильное направление.
Посмотреть ОригиналОтветить0
  • Закреплено