Выпуск DeepSeek V4: флагманская модель с 1,6 трлн параметров поддерживает контекст в 1 млн, вычислительная мощность для вывода составляет всего 27% от V3.2

ME News сообщает, 24 апреля (UTC+8), по данным мониторинга Beating, DeepSeek открыл исходный код предварительной версии серии V4, лицензия MIT, веса уже доступны на Hugging Face и ModelScope. Серия включает две модели MoE: V4-Pro с общим количеством параметров 1,6 трлн и активацией 49B (49 миллиардов) на токен; V4-Flash с общим количеством параметров 284B (284 миллиарда) и активацией 13B (1,3 миллиарда) на токен. Обе поддерживают контекст в 1 млн токенов. Три улучшения архитектуры: гибридный механизм внимания (сжатое разреженное внимание CSA + сильно сжатое внимание HCA) значительно снижает накладные расходы при длинном контексте, при контексте в 1 млн токенов вычислительные затраты V4-Pro на один токен составляют всего 27% от затрат V3.2, а кэш KV (занятость видеопамяти при хранении исторической информации во время вывода) составляет всего 10% от V3.2; гиперсвязь с ограничением многообразия mHC заменяет традиционные остаточные соединения, повышая стабильность передачи сигналов между слоями; обучение переведено на оптимизатор Muon для ускорения сходимости. Данные предварительного обучения превышают 32 трлн токенов. Пост-обучение проводится в два этапа: сначала с помощью SFT и GRPO с обучением с подкреплением отдельно тренируются эксперты в каждой области, затем с помощью онлайн-дистилляции модели объединяются в одну. V4-Pro-Max (режим с максимальной вычислительной мощностью) заявляет себя как самая мощная модель с открытым исходным кодом на данный момент, достигая высочайшего уровня в эталонных тестах кодирования, а разрыв в задачах вывода и агентных задачах с закрытыми передовыми моделями значительно сократился. V4-Flash-Max при достаточном бюджете на размышление показывает близкие к Pro результаты, но в чисто знаниях и сложных агентных задачах ограничен размером параметров. Веса хранятся в смешанной точности FP4+FP8. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено