DeepSeek выпустил предварительный просмотр серии V4, лицензия MIT, веса доступны на HuggingFace и ModelScope. V4-Pro1.6T, V4-Flash284B, оба поддерживают около 1 миллиона контекста, активируются соответственно 49B и 13B. Обновление до гибридного внимания CSA+HCA, сверхсвязи mHC, оптимизации Muon, обучающие данные превышают 32Т. Два этапа дообучения: SFT/GRPO для развития экспертных областей, затем онлайн-дистилляция и объединение. Pro-Max — самое мощное открытое решение, выводы приближаются к передовым; Flash-Max при достаточном бюджете размышлений также близок к Pro, но масштаб ограничен. Веса используют гибридную точность FP4+FP8.

BlockBeatNews

2026-04-24 03:22:40

Генерация тезисов в процессе

По данным мониторинга Beating, предварительный просмотр открытой версии DeepSeek серии V4, лицензия MIT, веса уже доступны на Hugging Face и ModelScope. В серии две модели MoE: V4-Pro с общим количеством параметров 1,6 трлн, активностью 49 млрд на токен (490 сотен миллионов); V4-Flash с общим количеством параметров 284 млрд (2840 сотен миллионов), активностью 13 млрд (130 сотен миллионов). Обе модели поддерживают контекст около 1 миллиона токенов.

Три улучшения архитектуры: гибридный механизм внимания (сжатое разреженное внимание CSA + тяжелое сжатое внимание HCA) значительно снижает расходы на длинный контекст, при контексте около 1 миллиона токенов FLOPs для одиночного токена при выводе V4-Pro составляет всего 27% от V3.2, кеш KV (использование видеопамяти для хранения истории при выводе) — всего 10% от V3.2; ограничение многообразия сверхсвязи mHC вместо традиционного остаточного соединения, повышая стабильность передачи сигналов между слоями; обучение переходит на оптимизатор Muon для ускорения сходимости. Предварительное обучение включает более 32 трлн токенов.

Двухэтапное дообучение: сначала с помощью SFT и GRPO проводится обучение экспертов по различным областям, затем онлайн-дистилляцией объединяются в одну модель. V4-Pro-Max (режим максимальной мощности вывода) заявляет о себе как о самом мощном открытом моделировании, базовые показатели кодирования достигают топовых уровней, разрыв в выводе и задачах агента по сравнению с закрытыми передовыми моделями значительно сокращается. V4-Flash-Max после достаточного времени размышления показывает вывод, близкий к Pro, но в чистых знаниях и сложных задачах агента ограничен масштабом параметров. Веса хранятся в смешанной точности FP4+FP8.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
135.61K Популярность
#
CryptoMarketSeesVolatility
206.05K Популярность
#
IsraelStrikesIranBTCPlunges
30.82K Популярность
#
rsETHAttackUpdate
59.76K Популярность
#
US-IranTalksStall
163.54K Популярность

Закрепить

Карта сайта

Популярные темы

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Закрепить