Новини CoinWorld: фреймворк BinEval автоматично оцінює ШІ за допомогою запитань «так/ні», щоб вирішити проблеми непрозорості та завищених оцінок моделей-суддів. Дослідницька група Capital One запропонувала цей фреймворк, який розбиває складні критерії оцінювання на окремі запитання з відповідями «так» або «ні», змушуючи модель оцінювання відповідати на кожне з них, а потім обчислює бал на основі частки правильних відповідей. У тестах на трьох основних наборах даних якість оцінювання BinEval, який використовує великі моделі, зокрема Claude Sonnet 4, відповідала або перевищувала такі основні інструменти оцінювання, як Unieval, особливо добре виявляючи зовні правильні, але фактично помилкові відповіді. Наприклад, в оцінюванні резюме, що стосується перехоплення літака, старий ШІ-суддя, дивлячись лише на поверхню, поставив максимальний бал 5,0, тоді як BinEval за допомогою семи запитань «так/ні» виявив чотири фактичні помилки та поставив 1,57 бала, що близько до людських 2,0 балів. Експерименти показали, що оптимізація зворотного зв'язку може підвищити дотримання формату та структури речень на 17 відсоткових пунктів, але для суворих вимог, таких як обмеження кількості слів та інших математичних розрахунків, інструменти оптимізації все ще безсилі.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

3 лайків

Нагородити
3
5
1
Поділіться

Прокоментувати

Додати коментар

L2NightCourier

· 2год тому

17% формату підвищення непогане, але з обмеженням кількості слів не впоратися — здається, жорсткі правила краще робити, а м'яке розуміння важке.