Самая мощная открытая модель deepseek v4 наконец-то вышла!
Модель с 1,6 триллиона параметров, лицензия MIT, объем видеопамяти для длинных текстов уменьшен до одной десятой от V3.2

robot
Генерация тезисов в процессе

По данным мониторинга Beating, предварительный просмотр открытой версии DeepSeek серии V4, лицензия MIT, веса уже доступны на Hugging Face и ModelScope. В серии две модели MoE: V4-Pro с общим количеством параметров 1,6 трлн, активностью 49 млрд на токен (490 сотен миллионов); V4-Flash с общим количеством параметров 284 млрд (2840 сотен миллионов), активностью 13 млрд (130 сотен миллионов). Обе модели поддерживают контекст около 1 миллиона токенов.

Три улучшения архитектуры: гибридный механизм внимания (сжатое разреженное внимание CSA + тяжелое сжатое внимание HCA) значительно снижает расходы на длинный контекст, при контексте около 1 миллиона токенов FLOPs для одиночного токена при выводе V4-Pro составляет всего 27% от V3.2, кеш KV (использование видеопамяти для хранения истории при выводе) — всего 10% от V3.2; ограничение многообразия сверхсвязи mHC вместо традиционного остаточного соединения, повышая стабильность передачи сигналов между слоями; обучение переходит на оптимизатор Muon для ускорения сходимости. Предварительное обучение включает более 32 трлн токенов.

Двухэтапное дообучение: сначала с помощью SFT и GRPO проводится обучение экспертов по различным областям, затем онлайн-дистилляцией объединяются в одну модель. V4-Pro-Max (режим максимальной мощности вывода) заявляет о себе как о самом мощном открытом моделировании, базовые показатели кодирования достигают топовых уровней, разрыв в выводе и задачах агента по сравнению с закрытыми передовыми моделями значительно сокращается. V4-Flash-Max после достаточного времени размышления показывает вывод, близкий к Pro, но в чистых знаниях и сложных задачах агента ограничен масштабом параметров. Веса хранятся в смешанной точности FP4+FP8.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить