Стенфордська та Берклі лабораторії у співпраці з NVIDIA запропонували LLM-as-a-Verifier, аналізуючи розподіл ймовірностей оцінки та багаторазове судження, успішно підвищили точність вибору рішень AI-програмних агентів. Експерименти показали, що у порівнянні з традиційним суддею, Verifier демонструє кращі результати у оцінюванні, значно підвищуючи рівень успіху, а також рамкова структура вже відкрита для публічного доступу.

MeNews

2026-05-01 06:03:18

Генерація анотацій у процесі

ME News Новини, 14 квітня (UTC+8), згідно з моніторингом 1M AI News, при обробці одного завдання за допомогою AI-програмного агента багаторазове виконання часто дає різні рішення, з яких деякі можуть бути неправильними. Якщо автоматично обирати найкраще, загальний рівень успіху може перевищити один разовий запуск. Питання в тому, як це зробити: залучення іншої моделі як судді для оцінки (тобто LLM-as-a-Judge) є нинішнім основним підходом, але рівень оцінки занадто грубий, часто дає однакові бали різним рішенням, що ускладнює визначення кращого. Спільно з лабораторією штучного інтелекту Стенфордського університету та лабораторією Sky Computing з Берклі, NVIDIA запропонували LLM-as-a-Verifier, що покращує цей процес відбору. Замість того, щоб дивитись лише на кінцевий бал судді, він читає ймовірнісні розподіли моделі для кожного рівня оцінки і обчислює з них неперервне значення винагороди. Також суддя повторює оцінку кілька разів, беручи середнє для зменшення випадкових похибок, і розбиває загальну оцінку на три незалежні виміри (чи відповідає завданню, правильність формату виводу, наявність помилкових сигналів) для окремої перевірки. У дослідженні використано Gemini 2.5 Flash як валідатор, точність однієї перевірки становить 74,7%, тоді як традиційний Judge — лише 57,0%; повторюючи 16 разів, Verifier досягає 77,4%, Judge — 70,2%. Традиційний Judge має 26,5% випадків, коли результат закінчується нічиєю, тоді як Verifier у всіх конфігураціях показує 0% нічиї. Реальні результати: на Terminal-Bench 2, запуск GPT-5.4 п’ять разів на одне й те саме завдання з випадковим вибором рішення дає 81,8% успіху, а після відбору за допомогою Verifier — 86,4%. На SWE-Bench Verified, з одного рішення кожного з Claude Opus 4.5, Claude Opus 4.6 і Gemini 3 Flash (всього 3 рішення), після відбору рівень успіху підвищився з 76,1% до 77,8%. Станом на 9 квітня обидва показники були на першому місці. Рамка вже відкрито опублікована. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
442.98K Популярність
#
USSeeksStrategicBitcoinReserve
58.69M Популярність
#
IsraelStrikesIranBTCPlunges
37.24K Популярність
#
BitcoinETFOptionLimitQuadruples
981.18K Популярність
#
#FedHoldsRateButDividesDeepen
30.56K Популярність

Закріпити

карта сайту

Стенфорд і Берклі запропонували LLM-as-a-Verifier, одночасно оновивши перші місця в рейтингах Terminal-Bench і SWE-Bench

Популярні теми

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Закріпити