Нарешті з'явилася найпотужніша відкрита модель deepseek v4! Модель з 1.6 трильйона параметрів, ліцензія MIT, пам'ять для довгих текстів стиснута до однієї десятої від V3.2

ME News повідомляє, 24 квітня (UTC+8), за даними моніторингу Beating, DeepSeek випустив попередню версію серії V4 з відкритим кодом, ліцензія MIT, ваги вже завантажені на Hugging Face та ModelScope.
Серія включає дві моделі MoE: V4-Pro з 1,6 трлн параметрів, активація 49B (49 мільярдів) на токен; V4-Flash з 284B (284 мільярди) параметрів, активація 13B (13 мільярдів).
Обидві підтримують контекст у 1 млн токенів.
Три оновлення архітектури: гібридний механізм уваги (стиснута розріджена увага CSA + сильно стиснута увага HCA) значно знижує витрати на довгі контексти, при контексті в 1 млн FLOPS одного токена V4-Pro становить лише 27% від V3.2, кеш KV (використання відеопам'яті для зберігання історії під час виведення) становить лише 10% від V3.2; багатозв'язність з обмеженнями многовиду mHC замінює традиційні залишкові з'єднання, підвищуючи стабільність передачі сигналу між шарами; навчання перейшло на оптимізатор Muon для прискорення збіжності.
Передтренувальні дані перевищують 32 трлн токенів.
Післятренування проводиться у два етапи: спочатку за допомогою SFT та навчання з підкріпленням GRPO окремо тренуються експерти в різних доменах, потім за допомогою онлайн-дистиляції вони об'єднуються в одну модель.
V4-Pro-Max (режим максимальної інтенсивності виведення) стверджує, що є найпотужнішою відкритою моделлю на сьогодні, досягає найвищих показників у кодуванні, а розрив у виведенні та завданнях агента з закритими передовими моделями значно скоротився.
V4-Flash-Max при достатньому бюджеті мислення демонструє результати виведення, близькі до Pro, але через обмеження розміру параметрів поступається в чистих знаннях та складних завданнях агента.
Вага зберігається зі змішаною точністю FP4+FP8.
(Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено