Стенфордський NLP на ICML 2026 продемонстрував перетворення попереднього навчання та подальшого навчання LLM у виконавче середовище за допомогою автоматизованого виконавця, використовуючи зворотній зв'язок від виконання для підвищення ефективності досліджень. Два підходи: еволюційний пошук у задачах подальшого навчання перевищує GRPO (69,4% проти 48,0%), а знайдені формули для попереднього навчання швидші за nanoGPT (19,7 хвилин проти 35,9 хвилин), обидва завершуються у десять раундів пошуку; підкріплювальне навчання на основі винагороди за виконання схильне до режимних збоїв, хоча й підвищує середню винагороду, але не підвищує верхню межу. Ця робота окреслює напрямки для автоматизованих досліджень ШІ, орієнтованих на виконання.

MeNews

2026-05-20 10:32:22

Генерація анотацій у процесі

AIMPACT повідомлення, 15 травня (UTC+8), команда NLP Стенфордського університету представила нову роботу автоматизованого дослідження штучного інтелекту на конференції ICML 2026, шляхом створення автоматичного виконавця, який перетворює попереднє та пост-тренувальне навчання LLM у виконавче середовище та використовує зворотний зв'язок від виконання для підвищення ефективності досліджень. Дослідження аналізує два підходи: еволюційний пошук має високу ефективність зразків, методи, знайдені у пост-тренувальних задачах, перевищують базовий GRPO (69.4% проти 48.0%), а формули, знайдені у попередньо тренувальних задачах, перевищують базовий nanoGPT (19.7 хвилин проти 35.9 хвилин), обидва завершуються за десять циклів пошуку; натомість, підкріплювальне навчання на основі виконавчої винагороди стикається з проблемою кривої режиму, хоча й підвищує середню винагороду, але не підвищує верхню межу. Ця робота надає напрямок для автоматизованих досліджень штучного інтелекту, орієнтованих на виконання. (Джерело: InFoQ)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

11 лайків

Нагородити
11
7
8
Поділіться

Прокоментувати

Додати коментар

MintColdBrew

· 2год тому

Робота ICML 2026 вже настільки серйозна