Аналіз: Відкритий вміст TileKernels багато в чому відповідає раніше оприлюдненим характеристикам архітектури V4, викладеним Yifan Zhang.

robot
Генерація анотацій у процесі

Згідно з моніторингом Beating, відкритий ядровий бібліотека TileKernels від DeepSeek має кілька відповідностей з архітектурними характеристиками V4, які раніше були розкриті Yifan Zhang.

Zhang стверджує, що залишкові з’єднання V4 використовують Hyper-Connections. Відкрита версія TileKernels — це ядро mHC (Manifold-Constrained Hyper-Connections), яке є покращеною версією HC з подвійним випадковим матричним обмеженням, запропонованою командою Seed від DeepSeek у 2024 році, і вирішує проблему розсіювання сигналу при масштабному навчанні, характерну для оригінального HC. mHC є різновидом Hyper-Connections, оскільки оригінальний HC не підтримує стабільне масштабне навчання, і, ймовірно, саме його використовує V4. Zhang стверджує, що V4 використовує злитий Mega-Kernel MoE для управління 384 експертами, активованими у 6 шарах MoE, а модуль MoE TileKernels включає вибір топ-k експертів, відображення токенів у експертів та їх розподіл і збір.

TileKernels також містить ядро Engram — це модуль умовної пам’яті, запропонований у статті DeepSeek у січні цього року, але у специфікації V4 Zhang його не згадує. Бібліотека підтримує SM90 (Hopper) і SM100 (Blackwell), але не підтримує Huawei Ascend. Раніше у статті «The Information» повідомлялося, що V4 тренується на Blackwell, і DeepSeek кілька місяців адаптувала модель для роботи з чипами Huawei і Cambrian.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити