Команда Стенфорд запропонувала RAGEN-2, використовуючи регулярізатор взаємної інформації для вирішення проблеми порожнечі дій у RL-агентів

2026-04-09 17:21:17

ME News Новини, 9 квітня (UTC+8), нещодавно дослідження під назвою RAGEN-2 вказало, що агенті, навчені за допомогою підсиленого навчання, хоча й здаються різноманітними у поведінці, насправді просто повторюють шаблони, що призводить до високої ентропії, але майже нульової взаємної інформації, тобто модель навчилася говорити порожні слова різними способами. Щоб вирішити цю проблему, дослідники запропонували регулярізатор, орієнтований на взаємну інформацію. Це дослідження було виконано спільно @wzenus, @ManlingLi_, @YejinChoinka та Фей-Фей Лі. (Джерело: InFoQ)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.