Новости CoinWorld: фреймворк BinEval автоматически оценивает ИИ с помощью вопросов «да/нет», чтобы решить проблемы ложных заявлений о полных баллах и непрозрачности моделей-судей. Исследовательская группа Capital One предложила этот фреймворк, который разбивает сложные критерии оценки на простые вопросы «да или нет», гарантируя, что модель оценки отвечает на каждый из них, а затем вычисляет балл на основе доли правильных ответов. В тестах на трех популярных наборах данных оценки качества BinEval с использованием больших моделей, таких как Claude Sonnet 4, соответствовали или превосходили такие основные инструменты оценки, как Unieval, особенно в выявлении ответов, которые выглядят связными, но содержат фактические ошибки. На примере оценки реферата, касающегося перехвата самолета, старый ИИ-судья, оценивавший только поверхностные аспекты, поставил полный балл 5,0, в то время как BinEval через семь вопросов «да/нет» выявил четыре фактические ошибки и поставил 1,57 балла, что близко к человеческому баллу 2,0. Эксперименты показали, что оптимизация обратной связи может повысить соблюдение формата и структуры предложений на 17 процентных пунктов, но для таких «жестких» требований, как математические вычисления, например ограничение количества слов, инструменты оптимизации по-прежнему бессильны.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

3 Лайков

Награда
3
5
1
Поделиться

комментарий

Добавить комментарий

L2NightCourier

· 2ч назад

17% формат улучшился неплохо, но ограничение по количеству слов не удаётся — кажется, жёсткие правила проще реализовать, а гибкое понимание сложно.

Посмотреть ОригиналОтветить0

WalletPermissionAdministrator

· 2ч назад

Дизайн вопросов типа «да/нет» действительно умен, превращая субъективную оценку в аудируемый объективный вопрос, напрямую сжимая пространство для ложных отчетов.

Посмотреть ОригиналОтветить0

DepegDaydream

· 2ч назад

Множественные наборы данных близки или превосходят Unieval, эта способность к переносу чего-то стоит, это не игрушка переобучения.

Посмотреть ОригиналОтветить0

ForkingDrama

· 2ч назад

1.57 против 5.0 — этот разрыв слишком реален, иллюзорные тексты с мнимой гладкостью наконец могут быть выявлены.

Посмотреть ОригиналОтветить0

MosaicBow

· 2ч назад

Семь вопросов разбивают оценку, что гораздо точнее общего шкала от 1 до 5. Человеческая разметка 2.0 указывает на правильное направление.

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
TradFiCFDGoldMaster
2,22M Популярность
#
SaylorHintsAtMoreBTC
8,5M Популярность
#
IsraelStrikesIranBTCPlunges
66,23K Популярность
#
PredictWorldCupShare20000U
490,93K Популярность
#
SolanaEcosystemANSEMSurges
22M Популярность

Закреплено

Карта сайта

Фреймворк BinEval использует вопросы с ответами "да/нет" для автоматической оценки AI, решая проблемы завышения оценок и непрозрачности судейской модели.

Популярные темы

TradFiCFDGoldMaster

SaylorHintsAtMoreBTC

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

SolanaEcosystemANSEMSurges

Закреплено