Криптовалютна новинна мережа, компанія Odyssey інтегрувала навчання з підкріпленням (RLHF) у тренування візуальних моделей, випустила фреймворк prowl, вперше ввівши RL у цикл тренування світових моделей. Цей фреймворк через відправлення агентів з підкріпленням у дослідження ігрового середовища шукає невдачі моделей у геометрії, рухах, візуальній послідовності та реакції на дії, а потім пакує ці баги у навчальні дані для зворотного зв’язку з моделлю. Prowl розробив пріоритетний протидіючий буфер траєкторій (PAT), який автоматично надсилає складніші невдачі після виправлення простих багів моделі. Команда перевірила prowl у середовищі Minecraft Minerl, і кількісні результати показали, що prowl у порівнянні з базовим попереднім тренуванням зменшив помилку слідування діям на 12,6%, а у найскладніших 10% сегментів зменшення склало 20,9%.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено