Команда Guquanquan зробила цю хвилю відкритого коду дуже крутою, без зовнішніх моделей викладачів вона може самовдосконалюватися, ідея генерації привілейованої інформації та шляхи логічних висновків заслуговують на детальне вивчення.

Переглянути оригінал
CoinNetwork
Повідомлення з CoinWorld, алгоритм SDPG був відкритий командою Лю Іфенг, Чжан Шиюань з Каліфорнійського університету в Лос-Анджелесі (UCLA) та Чжан Іфань з Прінстонського університету, з метою вирішення проблеми самовдосконалення агентів при відсутності зовнішнього керівного моделі. Цей алгоритм за допомогою механізму внутрішнього вчителя використовує привілейовану інформацію для створення високоякісних шляхів роздумів, підвищуючи ефективність та ймовірність успіху при багатоступеневих рішеннях. Оцінки показують, що SDPG перевершує GRPO та різні базові алгоритми самостримінгу у задачах математичних роздумів та багатоступеневого планування.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено