Стенфордська та Берклі лабораторії у співпраці з NVIDIA запропонували LLM-as-a-Verifier, аналізуючи розподіл ймовірностей оцінки та багаторазове судження, успішно підвищили точність вибору рішень AI-програмного агента. Експерименти показали, що у порівнянні з традиційним суддею, Verifier демонструє кращі результати у оцінюванні, значно підвищуючи рівень успіху, і структура вже є з відкритим кодом.

MeNews

2026-05-01 12:27:18

Генерація анотацій у процесі

ME News Новини, 14 квітня (UTC+8), за даними моніторингу 1M AI News, при обробці одного завдання за допомогою AI-програмних агентів багаторазове виконання часто дає різні рішення, деякі з яких можуть бути неправильними. Якщо автоматично обирати найкраще рішення, загальний рівень успіху може перевищити один разовий запуск. Питання в тому, як це зробити: залучення іншої моделі для оцінки (тобто LLM-as-a-Judge) є нинішнім основним підходом, але рівень оцінки занадто грубий, часто дає однакові бали різним рішенням, що ускладнює визначення кращого. Спільна команда лабораторії штучного інтелекту Стенфордського університету та лабораторії Sky Computing з Берклі разом із NVIDIA запропонували LLM-as-a-Verifier, що покращує цей процес відбору. Замість того, щоб дивитись лише на кінцевий бал судді, вони читають ймовірнісні розподіли кожної оцінки моделі і обчислюють з них неперервну винагороду. Також суддю повторюють кілька разів для усунення випадкових похибок, а загальна оцінка розбивається на три незалежні виміри (чи відповідає завданню, правильність формату виводу, наявність помилок) і перевіряється окремо. У дослідженні використовували Gemini 2.5 Flash як валідатор, точність однієї перевірки склала 74,7%, тоді як традиційний Judge — лише 57,0%; повторюючи 16 разів, Verifier досяг 77,4%, Judge — 70,2%. Традиційний Judge має 26,5% випадків, коли результат закінчується нічиєю, тоді як Verifier у всіх конфігураціях показує 0% нічиї. Реальні результати: на Terminal-Bench 2, запуск GPT-5.4 п’ять разів на одне й те саме завдання з випадковим вибором рішення дає 81,8% успіху, а після відбору за допомогою Verifier — 86,4%. На SWE-Bench Verified, з одного рішення від Claude Opus 4.5, Claude Opus 4.6 і Gemini 3 Flash (всього 3 рішення), після відбору показник підвищився з 76,1% до 77,8%. Станом на 9 квітня обидва показники були на першому місці. Рамка вже відкритий код. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
443.45K Популярність
#
USSeeksStrategicBitcoinReserve
58.69M Популярність
#
IsraelStrikesIranBTCPlunges
37.24K Популярність
#
BitcoinETFOptionLimitQuadruples
981.54K Популярність
#
#FedHoldsRateButDividesDeepen
30.6K Популярність

Закріпити

карта сайту

Стенфорд і Берклі запропонували LLM-as-a-Verifier, одночасно оновивши перші місця в рейтингах Terminal-Bench і SWE-Bench

Популярні теми

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Закріпити