Аналіз: Відкритий вихідний код TileKernels відповідає специфікаціям архітектури V4 Яфана Чжана

Згідно з моніторингом Dongcha Beating, бібліотека ядра TileKernels, відкритий код якої опублікувала DeepSeek, у кількох аспектах відповідає специфікаціям архітектури V4, раніше розкритим Yifan Zhang. Zhang заявив, що залишкові з’єднання V4 використовують Гіпер-з’єднання. Відкритий код TileKernels містить mHC (Обмежені Маніфольдом Гіпер-з’єднання), що є покращеною версією HC, запропонованою командою Byte Seed у 2024 році, яка вирішує проблему розбіжності сигналу, що виникає під час масштабного навчання з оригінальним HC. Саме mHC є типом Гіпер-з’єднань, оскільки оригінальне HC не підтримує стабільне масштабне навчання; отже, ймовірно, саме його використовують у V4. Zhang зазначив, що V4 використовує Об’єднаний Mega-Kernel MoE для керування 384 активізаціями експертів у 6 шарах MoE, тоді як модуль MoE у TileKernels включає відбір Top-k експертів, відображення токенів у експертів і розподіл та збір об’єднаних експертів. TileKernels також містить ядро Engram, яке є умовним модулем пам’яті, запропонованим у статті DeepSeek раніше цього року, але Engram не згадується у специфікаціях V4 від Zhang. Бібліотека підтримує SM90 (Hopper) та SM100 (Blackwell), але не підтримує Huawei Ascend. Раніше The Information повідомляла, що V4 тренували на Blackwell, і DeepSeek витратила місяці на адаптацію моделі для чипів Huawei і Cambricon.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити