ME News повідомляє, 24 квітня (UTC+8), за даними моніторингу 动察 Beating, методологія пост-тренування DeepSeek V4 зазнала значних змін: стадія mixed RL у V3.2 повністю замінена на On-Policy Distillation (OPD, дистиляція за поточною політикою).
Новий процес складається з двох кроків. Перший крок: для таких сфер, як математика, код, Agent, виконання інструкцій, на основі конвеєра V3.2 окремо тренуються моделі-експерти у кожній сфері; кожен експерт спочатку проходить тонке налаштування, а потім застосовує GRPO для посиленого навчання. Другий крок: за допомогою багатовчительської OPD дистилюються здібності понад десяти експертів в єдину модель: студент на власних згенерованих траєкторіях виконує дистиляцію logitів за повним словником з оберненою KL-дивергенцією для кожного вчителя, через узгодження на рівні logitів об'єднує ваги кількох експертів у єдиний простір параметрів, уникаючи конфліктів здібностей, характерних для традиційного об'єднання ваг (weight merging) та змішаного RL.
У звіті також пропонується Generative Reward Model (GRM, генеративна модель винагороди): для завдань, які важко перевірити за правилами, замість тренування традиційної скалярної моделі винагороди, тренується GRM на даних RL, керованих рубрикою, що дозволяє мережі актора одночасно виконувати генерацію та оцінювання, і з невеликою кількістю різноманітних ручних позначок можна узагальнювати на складні завдання.
(Джерело: BlockBeats)

DEEPSEEK-2,53%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateCompletesDividendDistribution
536,11K Популярність
#
CirclePlunges17%
4,16M Популярність
#
IsraelStrikesIranBTCPlunges
67,51K Популярність
#
PredictWorldCupShare20000U
162,83K Популярність
#
GateCardPointsSystemLaunched
120,28K Популярність

Закріплено

карта сайту

V4 післятренувальна зміна покоління: OPD замінює змішане RL, дистиляція понад десяти експертних моделей в одну.

Популярні теми

GateCompletesDividendDistribution

CirclePlunges17%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

GateCardPointsSystemLaunched

Закріплено