DeepSeek V4 випуск: флагманська модель з 1,6T параметрів підтримує контекст 1M, обчислювальна потужність для виведення становить лише 27% від V3.2

ME News повідомляє, 24 квітня (UTC+8), за даними моніторингу Dongcha Beating, DeepSeek випустив попередню версію серії V4 з відкритим кодом, ліцензія MIT, ваги вже доступні на Hugging Face та ModelScope. Серія включає дві моделі MoE: V4-Pro із загальною кількістю параметрів 1,6 трлн, активація 49B (49 мільярдів) на токен; V4-Flash із загальною кількістю параметрів 284B (284 мільярди), активація 13B (13 мільярдів). Обидві підтримують контекст на 1 млн токенів. Архітектура має три оновлення: механізм гібридної уваги (стиснута розріджена увага CSA + сильно стиснута увага HCA) значно знижує витрати на довгий контекст, для контексту 1 млн V4-Pro має FLOPs на один токен лише 27% від V3.2, а кеш KV (використання відеопам'яті для зберігання історії під час виведення) становить лише 10% від V3.2; багатошарове обмежувальне гіперз'єднання mHC замінює традиційне залишкове з'єднання, покращуючи стабільність передачі сигналу між шарами; для тренування використовується оптимізатор Muon для прискорення збіжності. Дані попереднього тренування перевищують 32 трлн токенів. Пост-тренування проводиться у два етапи: спочатку за допомогою SFT та GRPO навчаються експерти в окремих областях, потім за допомогою онлайн-дистиляції всі об'єднуються в одну модель. V4-Pro-Max (режим найвищої інтенсивності виведення) стверджує, що є найкращою моделлю з відкритим кодом на сьогодні, досягаючи найвищого рівня в кодувальних тестах, а розрив у виконанні завдань міркування та агента з закритими передовими моделями значно скоротився. V4-Flash-Max, маючи достатній бюджет на мислення, досягає результатів, близьких до Pro, але через обмежений розмір параметрів поступається у суто знаннєвих та складних агентських завданнях. Ваги зберігаються зі змішаною точністю FP4+FP8. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено