UCLA+Прінстон відкритий код SDPG, внутрішній механізм викладачів дозволяє агентам навчати себе самих, математичне мислення та багатоступеневе планування безпосередньо перемагають GRPO

Переглянути оригінал
CoinNetwork
Повідомлення з CoinWorld, алгоритм SDPG був відкритий командою Лю Іфенг, Чжан Шиюань з Каліфорнійського університету в Лос-Анджелесі (UCLA) та Чжан Іфань з Прінстонського університету, з метою вирішення проблеми самовдосконалення агентів при відсутності зовнішнього керівного моделі. Цей алгоритм за допомогою механізму внутрішнього вчителя використовує привілейовану інформацію для створення високоякісних шляхів роздумів, підвищуючи ефективність та ймовірність успіху при багатоступеневих рішеннях. Оцінки показують, що SDPG перевершує GRPO та різні базові алгоритми самостримінгу у задачах математичних роздумів та багатоступеневого планування.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено