Фреймворк BinEval автоматично оцінює ШІ за допомогою питань "так/ні", вирішуючи проблеми фіктивних максимальних балів та непрозорості моделі судді.

ME AI новини, за даними моніторингу Beating, дослідницька група Capital One запропонувала оцінювальну структуру BinEval, яка автоматично розбиває складні критерії оцінювання на конкретні запитання «так чи ні», вирішуючи проблеми оцінювання як чорної скриньки та завищених балів.
Структура дозволяє моделі оцінювання відповідати на кожне так/ні запитання одне за одним, а потім обчислювати бал на основі пропорції правильних відповідей.
У тестах на трьох основних наборах даних якість оцінювання BinEval з використанням великих моделей, таких як Claude Sonnet 4, збігалася або перевищувала основні інструменти оцінювання, такі як UniEval, особливо добре виявляючи відповіді, які здаються правильними, але містять фактичні помилки.
Наприклад, в оцінюванні резюме, що стосується перехоплення літака, хоча резюме читалося плавно, і сутності та моделі літаків були правильними, резюме переплутало твердження Пентагону та Росії, а також вигадало URL.
Старий AI-суддя, дивлячись лише на поверхню, одразу поставив максимальний бал 5.0.
Натомість BinEval за допомогою семи запитань так/ні точно виявив чотири фактичні помилки та поставив 1.57 бала, що дуже близько до людської оцінки 2.0.
Зошит помилок із запитаннями так/ні можна використовувати як для оптимізації стандартів оцінювання самої моделі-судді, так і для автоматичного змінення підказок для написання статей.
Експерименти показують, що в тестах на дотримання інструкцій зворотний зв'язок може підвищити рівень дотримання формату та структури речень на 17 відсоткових пунктів.
Однак для таких твердих навичок, як обмеження кількості слів, які потребують математичних обчислень, інструменти оптимізації все ще неефективні, і надмірне розбиття вимог може зробити критерії оцінювання надто суворими.
(Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено