最强开源模型 deepseek v4终于来了!1.6万亿参数模型,MIT许可,长文本显存压到V3.2十分之一

ME News сообщает, 24 апреля (UTC+8), по данным мониторинга Beating, DeepSeek открыл исходный код предварительной версии серии V4, лицензия MIT, веса уже загружены на Hugging Face и ModelScope.
Серия включает две модели MoE: V4-Pro с общим количеством параметров 1,6T, активация 49B (49 миллиардов) на токен; V4-Flash с общим количеством параметров 284B (284 миллиарда), активация 13B (13 миллиардов). Обе поддерживают контекст из 1M токенов.
Три модернизации архитектуры: механизм смешанного внимания (сжатое разреженное внимание CSA + сильно сжатое внимание HCA) значительно снижает накладные расходы на длинные контексты; при контексте 1M FLOPs вывода одного токена V4-Pro составляют всего 27% от V3.2, KV-кэш (использование видеопамяти для хранения исторической информации при выводе) составляет всего 10% от V3.2; потоково-ограниченная гиперсвязь mHC заменяет традиционные остаточные соединения, повышая стабильность передачи сигналов между слоями; обучение переведено на оптимизатор Muon для ускорения сходимости. Данные предварительного обучения превышают 32T токенов.
Пост-обучение делится на два этапа: сначала с помощью SFT и GRPO (обучение с подкреплением) по отдельности обучаются эксперты в каждой области, затем с помощью онлайн-дистилляции они объединяются в одну модель. V4-Pro-Max (режим максимальной вычислительной мощности) заявляется как самая мощная модель с открытым исходным кодом на сегодняшний день, достигает высшего уровня в бенчмарках кодирования, разрыв с закрытыми передовыми моделями в задачах вывода и агентов значительно сокращен. V4-Flash-Max при достаточном бюджете на размышления показывает результаты вывода, близкие к Pro, но в задачах, требующих чистых знаний и сложных агентов, ограничен размером параметров. Веса хранятся в смешанной точности FP4+FP8.
(Источник: BlockBeats)
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено