BinEval框架 використовує питання типу "так/ні" для автоматичного оцінювання ШІ, вирішуючи проблеми неправдивого повідомлення про повні бали та непрозорості моделі-судді.

robot
Генерація анотацій у процесі
Новини CoinWorld: фреймворк BinEval автоматично оцінює ШІ за допомогою запитань «так/ні», щоб вирішити проблеми непрозорості та завищених оцінок моделей-суддів. Дослідницька група Capital One запропонувала цей фреймворк, який розбиває складні критерії оцінювання на окремі запитання з відповідями «так» або «ні», змушуючи модель оцінювання відповідати на кожне з них, а потім обчислює бал на основі частки правильних відповідей. У тестах на трьох основних наборах даних якість оцінювання BinEval, який використовує великі моделі, зокрема Claude Sonnet 4, відповідала або перевищувала такі основні інструменти оцінювання, як Unieval, особливо добре виявляючи зовні правильні, але фактично помилкові відповіді. Наприклад, в оцінюванні резюме, що стосується перехоплення літака, старий ШІ-суддя, дивлячись лише на поверхню, поставив максимальний бал 5,0, тоді як BinEval за допомогою семи запитань «так/ні» виявив чотири фактичні помилки та поставив 1,57 бала, що близько до людських 2,0 балів. Експерименти показали, що оптимізація зворотного зв'язку може підвищити дотримання формату та структури речень на 17 відсоткових пунктів, але для суворих вимог, таких як обмеження кількості слів та інших математичних розрахунків, інструменти оптимізації все ще безсилі.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • 1
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
L2NightCourier
· 2год тому
17% формату підвищення непогане, але з обмеженням кількості слів не впоратися — здається, жорсткі правила краще робити, а м'яке розуміння важке.
Переглянути оригіналвідповісти на0
WalletPermissionAdministrator
· 2год тому
Конструкція запитань із відповідями "так/ні" справді розумна — вона перетворює суб'єктивне оцінювання на об'єктивні, перевірені питання, безпосередньо стискаючи простір для неправдивих звітів.
Переглянути оригіналвідповісти на0
DepegDaydream
· 2год тому
Багато наборів даних наближаються або перевершують Unieval, ця здатність до перенесення має щось, це не іграшка з перенавчанням.
Переглянути оригіналвідповісти на0
ForkingDrama
· 2год тому
1.57 vs 5.0 цей розрив занадто реальний, нарешті можна виявити гладкий на вигляд текст-ілюзію.
Переглянути оригіналвідповісти на0
MosaicBow
· 2год тому
Оцінка розбирання семи завдань є набагато точнішою, ніж загальна шкала 1-5. Позначення людини 2.0 показує, що напрямок правильний.
Переглянути оригіналвідповісти на0
  • Закріплено