V4 післятренувальна зміна покоління: OPD замінює змішане RL, дистиляція понад десяти експертних моделей в одну.

robot
Генерація анотацій у процесі
ME News повідомляє, 24 квітня (UTC+8), за даними моніторингу 动察 Beating, методологія пост-тренування DeepSeek V4 зазнала значних змін: стадія mixed RL у V3.2 повністю замінена на On-Policy Distillation (OPD, дистиляція за поточною політикою).
Новий процес складається з двох кроків. Перший крок: для таких сфер, як математика, код, Agent, виконання інструкцій, на основі конвеєра V3.2 окремо тренуються моделі-експерти у кожній сфері; кожен експерт спочатку проходить тонке налаштування, а потім застосовує GRPO для посиленого навчання. Другий крок: за допомогою багатовчительської OPD дистилюються здібності понад десяти експертів в єдину модель: студент на власних згенерованих траєкторіях виконує дистиляцію logitів за повним словником з оберненою KL-дивергенцією для кожного вчителя, через узгодження на рівні logitів об'єднує ваги кількох експертів у єдиний простір параметрів, уникаючи конфліктів здібностей, характерних для традиційного об'єднання ваг (weight merging) та змішаного RL.
У звіті також пропонується Generative Reward Model (GRM, генеративна модель винагороди): для завдань, які важко перевірити за правилами, замість тренування традиційної скалярної моделі винагороди, тренується GRM на даних RL, керованих рубрикою, що дозволяє мережі актора одночасно виконувати генерацію та оцінювання, і з невеликою кількістю різноманітних ручних позначок можна узагальнювати на складні завдання.
(Джерело: BlockBeats)
DEEPSEEK-2,53%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено