Анализ: Открытый исходный код TileKernels во многом соответствует ранее раскрытым спецификациям архитектуры V4, опубликованным Yifan Zhang

robot
Генерация тезисов в процессе

По данным мониторинга Beating, открытая библиотека ядров TileKernels от DeepSeek соответствует нескольким аспектам спецификации архитектуры V4, ранее раскрытой Yifan Zhang.

Zhang утверждает, что остаточные связи V4 используют Hyper-Connections. Открытая версия TileKernels реализует mHC (Manifold-Constrained Hyper-Connections), это улучшенная версия HC с двойным случайным матричным ограничением, предложенная командой Seed в 2024 году, которая решает проблему расходимости сигнала при масштабном обучении оригинальных HC. mHC является разновидностью Hyper-Connections, в то время как оригинальный HC не способен обеспечивать стабильное масштабное обучение, поэтому, скорее всего, в V4 используется именно mHC. Zhang говорит, что V4 использует Fused MoE Mega-Kernel для управления 384 экспертами в слое MoE с 6 активными экспертами, а модуль MoE TileKernels включает выбор топ-k экспертов, отображение токенов на экспертов и распределение и сбор экспертов с объединением.

TileKernels также содержит ядро Engram — это условный модуль памяти, предложенный в статье DeepSeek в январе этого года, однако в спецификации V4 Zhang не упоминает Engram. Библиотека поддерживает SM90 (Hopper) и SM100 (Blackwell), без поддержки Huawei Ascend. Ранее в статье «The Information» сообщалось, что V4 обучается на Blackwell, а DeepSeek несколько месяцев адаптирует модель под чипы Huawei и Cambrian.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить