Huawei задерживает запуск DeepSeek V4 из-за проблем с чипами? Тот же ядро достигает почти вдвое большей скорости на NVIDIA Ascend

Согласно мониторингу Dongcha Beating, до выпуска DeepSeek V4 в сообществе широко распространялись спекуляции о том, что запуск был задержан из-за трудностей в адаптации модели с NVIDIA на платформу Huawei Ascend. Хотя технический отчет V4 прямо не касался этого слуха, опубликованные данные о производительности значительно ему противоречат. В отчете показано, что схема тонкой настройки экспертов (Fine-Grained EP Scheme) успешно развернута и проверена как на GPU NVIDIA, так и на NPU Huawei Ascend, достигая ускорения от 1,50 до 1,73 раза для обычных нагрузок вывода, и до 1,96 раза для сценариев с низкой задержкой, таких как RL rollout и высокоскоростные сервисы агентов. Команда также открыла исходный код ядра MegaMoE для CUDA в рамках DeepGEMM. Другими словами, V4 продемонстрировала эффективность, близкую к теоретическим пределам, на обеих аппаратных платформах, и кросс-платформенная адаптация не привела к потере производительности.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить