BinEval разбивает оценку на вопросы "да/нет", что весьма умно — пространство для завышения оценок напрямую сжимается, и наконец-то можно выявить галлюцинации, которые внешне выглядят правдоподобно, но на самом деле содержат ошибки.

Посмотреть Оригинал
CoinNetwork
Фреймворк BinEval использует вопросы с ответами "да/нет" для автоматической оценки AI, решая проблемы завышения оценок и непрозрачности судейской модели.
BinEval превращает оценки в вопросы типа «да/нет», отвечая на каждый по очереди и оценивая по доле правильных ответов, что повышает прозрачность и подавляет завышение. Исследования показывают, что его оценки на нескольких наборах данных близки или превосходят Unieval, и он особенно хорош в обнаружении ответов, которые кажутся беглыми, но фактически ошибочны. На примере аннотации перехвата самолета старый арбитр поставил полный балл 5,0, а BinEval с помощью семи вопросов типа «да/нет» получил 1,57, что близко к человеческому 2,0. Оптимизация с обратной связью повышает соответствие форматированию примерно на 17 процентных пунктов, но по-прежнему с трудом улучшает жесткие ограничения, такие как количество символов.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено