📰 【DeepSeek V4发布:1.6T参数旗舰支持1M上下文,推理算力仅为V3.2的27%】


По данным мониторинга Beating, предварительная версия DeepSeek V4 серии с открытым исходным кодом, лицензия MIT, веса уже доступны на Hugging Face и ModelScope. Эта серия включает две модели MoE: V4-Pro с общим количеством параметров 1.6 трлн, активирует 49 млрд токенов (490亿); V4-Flash с общим количеством параметров 284 млрд (2840亿), активирует 13 млрд (130亿). Обе поддерживают контекст до 1 миллиона токенов. Архитектура претерпела три улучшения: гибридный механизм внимания (сжатое разреженное внимание CSA + тяжелое сжатое внимание HCA), значительно снижающие расходы на длинный контекст, при 1 миллионе токенов V4...
Черт возьми! Этот DeepSeek V4 собирается прямо-таки сломать затраты на вычислительную мощность у шулеров! 1.6 трлн параметров активируют всего 49 млрд, а推理算力 достигает всего 27% от V3.2 — разве это не открывает для нас, простых собак, чит-код на вычислительную мощность? $AI-рынок снова будет промыт до такой степени, что даже мамы не узнают своих детей! Родные, следите за весами на Hugging Face, когда эта волна технологических дивидендов реализуется, все проекты, которые полагаются на наращивание мощности для выжима, будут прижаты к земле! Черт возьми, не хочешь ли ты присоединиться к шулерам и стать их подставной жертвой?👇👇👇👇👇
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить