📰 【DeepSeek V4 випуск: флагман з 1.6T параметрів підтримує контекст 1М, обчислювальна потужність для виведення лише 27% від V3.2】


Згідно з моніторингом Beating, відкритий попередній перегляд серії DeepSeek V4, ліцензований за MIT, вже доступний на Hugging Face та ModelScope. Ця серія включає дві MoE моделі: V4-Pro з 1.6T загальних параметрів, активує 49B (490 мільярдів) за токен; V4-Flash з 284B (2840 мільярдів), активує 13B (130 мільярдів). Обидві підтримують контекст 1М токенів. Архітектура має три оновлення: гібридний механізм уваги (стиснена розріджена увага CSA + важка стиснена увага HCA), що значно знижує витрати на довгий контекст, при контексті 1М V4...
Я йому брате! Цей DeepSeek V4 збирається прямо зламати ціну обчислювальної потужності для шахраїв! 1.6T параметрів активує лише 49B, обчислювальна потужність для виведення становить лише 27% від V3.2, хіба це не дає нам, простим собакам, прямо хак для обчислювальної потужності? $AI-ринок знову буде змиватися так, що навіть мама не впізнає! Родичі, швидко стежте за вагами на Hugging Face, коли ця хвиля технологічних дивідендів реалізується, проекти, що заробляють на накопиченні потужності, будуть прижати до землі! Господи, чи чекати, щоб цю хвилю не пропустити і щоб цю шахрайську компанію не взяли на себе?👇👇👇👇👇
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити