📰 【Найпотужніша відкритий код моделі DeepSeek V4 нарешті тут! Модель з 1,6 трильйонами параметрів, ліцензія MIT, стиснення пам’яті для довгих текстів до однієї десятої від V3.2】


Згідно з моніторингом Beating, попередня версія відкритої моделі DeepSeek V4 серії, з ліцензією MIT, ваги вже доступні на Hugging Face та ModelScope. Ця серія включає дві MoE моделі: V4-Pro з загалом 1,6 трильйонами параметрів, активує 49B (490 мільярдів) на токен; V4-Flash з 284B (2840 мільярдів) параметрів, активує 13B (130 мільярдів). Обидві підтримують контекст до 1 мільйона токенів. Архітектура має три оновлення: гібридний механізм уваги (стиснена розріджена увага CSA + важка стиснена увага HCA), що значно знижує витрати на довгий контекст, при цьому V4...

Брати, DeepSeek знову зробив великий крок, відкритий код моделі V4 з 1,6 трильйонами параметрів, ліцензія MIT, можна використовувати без обмежень, стиснення пам’яті для довгих текстів до однієї десятої від V3.2. Цей чувак справді сміливий — роздає великі моделі, як капусту, для роздрібних інвесторів у AI — швидше сідайте в цю поїздку, не пропустіть цю хвилю технологічних можливостей, як колись пропустили короля криптовалют.👇👇👇👇👇
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити