Аналіз: Відкритий вихідний код TileKernels відповідає специфікаціям архітектури V4 Яфана Чжана

Згідно з моніторингом Dongcha Beating, бібліотека ядра TileKernels, відкритий код якої опублікувала DeepSeek, у кількох аспектах відповідає специфікаціям архітектури V4, раніше розкритим Yifan Zhang. Zhang заявив, що залишкові з’єднання V4 використовують Hyper-Connections. Відкритий код TileKernels містить mHC (Manifold-Constrained Hyper-Connections), що є покращеною версією HC, запропонованою командою Byte Seed у 2024 році, яка вирішує проблему розбіжності сигналу, що виникає під час масштабного навчання з використанням оригінального HC. Сам mHC є типом Hyper-Connections, оскільки оригінальний HC не підтримує стабільне масштабне навчання; отже, ймовірно, саме його використовують у V4. Zhang зазначив, що V4 використовує Fused MoE Mega-Kernel для управління 384 експертними активаціями у 6 шарах MoE, тоді як модуль MoE у TileKernels включає відбір Top-k експертів, відображення токенів у експертів, а також розподіл і збір злитих експертів. TileKernels також містить Engram kernel, який є умовним модулем пам’яті, запропонованим у статті DeepSeek раніше цього року, але Engram не згадується у специфікаціях V4 від Zhang. Бібліотека підтримує SM90 (Hopper) і SM100 (Blackwell), але не підтримує Huawei Ascend. Раніше The Information повідомляв, що V4 тренували на Blackwell, і DeepSeek витратила місяці на адаптацію моделі для чипів Huawei і Cambricon.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити