Стенфорд і Берклі запропонували LLM-as-a-Verifier, одночасно оновивши перші місця в рейтингах Terminal-Bench і SWE-Bench

robot
Генерація анотацій у процесі

ME News Новини, 14 квітня (UTC+8), згідно з моніторингом 1M AI News, при обробці одного завдання за допомогою AI-програмного агента багаторазове виконання часто дає різні рішення, з яких деякі можуть бути неправильними. Якщо автоматично обирати найкраще, загальний рівень успіху може перевищити один разовий запуск. Питання в тому, як це зробити: залучення іншої моделі як судді для оцінки (тобто LLM-as-a-Judge) є нинішнім основним підходом, але рівень оцінки занадто грубий, часто дає однакові бали різним рішенням, що ускладнює визначення кращого. Спільно з лабораторією штучного інтелекту Стенфордського університету та лабораторією Sky Computing з Берклі, NVIDIA запропонували LLM-as-a-Verifier, що покращує цей процес відбору. Замість того, щоб дивитись лише на кінцевий бал судді, він читає ймовірнісні розподіли моделі для кожного рівня оцінки і обчислює з них неперервне значення винагороди. Також суддя повторює оцінку кілька разів, беручи середнє для зменшення випадкових похибок, і розбиває загальну оцінку на три незалежні виміри (чи відповідає завданню, правильність формату виводу, наявність помилкових сигналів) для окремої перевірки. У дослідженні використано Gemini 2.5 Flash як валідатор, точність однієї перевірки становить 74,7%, тоді як традиційний Judge — лише 57,0%; повторюючи 16 разів, Verifier досягає 77,4%, Judge — 70,2%. Традиційний Judge має 26,5% випадків, коли результат закінчується нічиєю, тоді як Verifier у всіх конфігураціях показує 0% нічиї. Реальні результати: на Terminal-Bench 2, запуск GPT-5.4 п’ять разів на одне й те саме завдання з випадковим вибором рішення дає 81,8% успіху, а після відбору за допомогою Verifier — 86,4%. На SWE-Bench Verified, з одного рішення кожного з Claude Opus 4.5, Claude Opus 4.6 і Gemini 3 Flash (всього 3 рішення), після відбору рівень успіху підвищився з 76,1% до 77,8%. Станом на 9 квітня обидва показники були на першому місці. Рамка вже відкрито опублікована. (Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити