V4 после тренировки смена поколения: OPD заменяет гибридное RL, дистилляция более десяти экспертных моделей в одну.

robot
Генерация тезисов в процессе
ME News сообщение, 24 апреля (UTC+8), по данным мониторинга Beating, в методологии пост-тренировки DeepSeek V4 произошли значительные изменения: смешанный этап RL в V3.2 был полностью заменён на On-Policy Distillation (OPD, дистилляция на политике). Новый процесс состоит из двух шагов. Первый шаг: для областей математики, кода, агентов, следования инструкциям и т.д. на основе конвейера V3.2 отдельно обучаются модели-эксперты, каждый эксперт сначала дообучается, а затем использует GRPO для обучения с подкреплением. Второй шаг: с помощью многоучительской OPD способности более десяти экспертов дистиллируются в единую модель: студент на своих собственных сгенерированных траекториях выполняет дистилляцию logit по всему словарю с обратной KL-дивергенцией для каждого учителя, объединяя веса нескольких экспертов в единое параметрическое пространство на уровне выравнивания logits, избегая конфликтов способностей, характерных для традиционного слияния весов и смешанного RL. В отчёте также предлагается Generative Reward Model (GRM, генеративная модель вознаграждения): для задач, которые трудно проверить правилами, вместо обучения традиционной скалярной модели вознаграждения обучается GRM на данных RL, направляемых рубрикой, позволяя сети актора одновременно выполнять генерацию и оценку, обобщая сложные задачи с небольшим количеством разнообразных человеческих аннотаций. (Источник: BlockBeats)
DEEPSEEK-2,05%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено