Чіп Huawei затримує запуск DeepSeek V4? Той самий ядро досягає майже вдвічі більшої швидкості на NVIDIA Ascend

Згідно з моніторингом Dongcha Beating, перед випуском DeepSeek V4 у спільноті поширювалися чутки про те, що запуск був затриманий через труднощі з адаптацією моделі з NVIDIA на платформу Huawei Ascend. Хоча технічний звіт V4 прямо не стосувався цього чутки, оприлюднені дані про продуктивність значно їй суперечать. У звіті показано, що схема тонкої експертної розподілу (Fine-Grained EP Scheme) була успішно розгорнута та підтверджена як на GPU NVIDIA, так і на NPU Huawei Ascend, досягаючи прискорення від 1,50 до 1,73 разів для звичайних навантажень інференції, і до 1,96 разів для сценаріїв з високою затримкою, таких як RL rollout і високошвидкісні сервіси агентів. Команда також відкрила вихідний код ядра MegaMoE для CUDA як частину DeepGEMM. Іншими словами, V4 продемонструвала ефективність, близьку до теоретичних меж, на обох апаратних платформах, і крос-платформна адаптація не призвела до втрати продуктивності.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити