BinEval розбиває оцінювання на запитання типу "так/ні" — це досить розумний хід. Простір для завищення оцінок напряму стискається. Ілюзії, які виглядають правдоподібними, але містять фактичні помилки, нарешті можна виявити.

Переглянути оригінал
CoinNetwork
BinEval框架 використовує питання типу "так/ні" для автоматичного оцінювання ШІ, вирішуючи проблеми неправдивого повідомлення про повні бали та непрозорості моделі-судді.
BinEval перетворює оцінювання на запитання типу "так/ні", відповідаючи на кожне з них по черзі та підраховуючи правильні відповіді, підвищуючи прозорість і зменшуючи завищення. Дослідження показують, що його оцінки на багатьох наборах даних є близькими або перевищують Unieval, а особливо добре виявляють відповіді, які виглядають правдоподібно, але містять фактичні помилки. На прикладі резюме про перехоплення літака: стара модель дала максимальний бал 5,0, а BinEval через сім запитань типу "так/ні" отримав 1,57, що близько до людської оцінки 2,0. Зворотній зв'язок покращує відповідність формату приблизно на 17 відсоткових пунктів, але жорсткі обмеження, такі як довжина тексту, все ще важко покращити.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено