Рамка BinEval использует вопросы типа "да/нет" для автоматической оценки ИИ, решая проблему ложных максимальных баллов и непрозрачности модели-судьи.

ME AI сообщает, по данным мониторинга Beating, исследовательская группа Capital One предложила оценочный фреймворк BinEval, который автоматически разбивает сложные критерии оценки на конкретные вопросы "да или нет", решая проблему "черного ящика" в оценках и завышенных баллов. Фреймворк заставляет оценочную модель отвечать на каждый из вопросов по очереди, а затем вычисляет балл на основе доли правильных ответов. В тестах на трех основных наборах данных качество оценок BinEval с использованием больших моделей, таких как Claude Sonnet 4, сравнимо или превосходит основные инструменты оценки, такие как UniEval, особенно хорошо выявляя поверхностно гладкие, но фактологически ошибочные ответы. На примере оценки реферата, касающегося перехвата самолета, хотя реферат читается плавно, и объекты с моделями самолетов совпадают, реферат перепутал позиции Пентагона и России, а также выдумал URL-адрес. Старый ИИ-судья, оценивавший только поверхность, поставил максимальный балл 5,0. BinEval же с помощью семи вопросов "да/нет" точно выявил четыре фактологические ошибки и поставил 1,57 балла, что очень близко к 2,0 баллам, поставленным человеком. Журнал ошибок по вопросам "да/нет" может использоваться как для оптимизации критериев оценки самой судейской модели, так и для автоматического изменения подсказок для написания текстов. Эксперименты показали, что в тестах на следование инструкциям оптимизация с обратной связью может повысить соблюдение формата и структуры предложений на 17 процентных пунктов. Однако для жестких требований, требующих математических вычислений, таких как ограничение количества слов, инструменты оптимизации по-прежнему бессильны, а чрезмерное дробление требований может сделать критерии оценки слишком строгими. (Источник: Beats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено