📰 【Самая мощная открытая модель DeepSeek V4 наконец-то вышла! Модель с 1,6 трлн параметров, лицензия MIT, сжатие памяти для длинных текстов до одной десятой от V3.2】


Согласно мониторингу Beating, предварительная версия серии DeepSeek открытого доступа V4, использующая лицензию MIT, веса уже доступны на Hugging Face и ModelScope. Эта серия включает две модели MoE: V4-Pro с общим количеством параметров 1,6 трлн, активностью 49B за токен (490 миллиардов); V4-Flash с общим количеством параметров 284B (2840 миллиардов), активностью 13B (130 миллиардов). Обе поддерживают контекст до 1 миллиона токенов. В архитектуре реализованы три улучшения: гибридный механизм внимания (сжатое разреженное внимание CSA + тяжелое сжатое внимание HCA), значительно снижающие расходы на длинный контекст, при 1 миллионе токенов V4...

Ребята, DeepSeek снова устроил грандиозное событие, открытая модель V4 с 1,6 трлн параметров, лицензия MIT — используйте как хотите, память для длинных текстов сжата до одной десятой от V3.2. Этот парень действительно смел, раздает большие модели как капусту, розничные инвесторы, торгующие ИИ, скорее садитесь в поезд, не упустите этот технологический бум, как когда-то упустили короля криптовалют.👇👇👇👇👇
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить