Huawei and USTC jointly break NVIDIA's monopoly, Ascend A3 accelerates large model expert computation speed by 58%

Согласно мониторингу Beating, в ходе масштабной эволюции архитектуры MoE использование отечественных чипов Ascend для обучения больших моделей стало ключевым направлением в создании автономных и управляемых AI вычислительных мощностей.
Однако большинство популярных фреймворков для больших моделей основаны на экосистеме CUDA от Nvidia, и при переносе их на платформу Ascend возникают сложности, такие как неравномерное распределение очередей аппаратного обеспечения и низкая эффективность использования вычислительных ресурсов.
Совместно с Университетом Китая, Huawei и Пекинским университетом был представлен фреймворк для компиляции и планирования HyperParallel-MoE, который ориентирован на уникальные аппаратные очереди A3 Ascend и осуществляет управление на уровне плиток (tile-level), чтобы преодолеть энергетические узкие места при параллельном планировании разнородных вычислительных ресурсов.

A3 Ascend имеет два типа ядер: AIC отвечает за матричное умножение, а AIV занимается векторными вычислениями и коммуникациями.
Однако при традиционном последовательном планировании операторов эти два типа ядер работают по очереди, что ведет к простоям.
Практические данные показывают, что при запуске крупной модели DeepSeek объемом 671 миллиард на кластере из 256 узлов использование AIC составляет всего 67%, а 39% задержек при маршрутизации экспертов и коммуникациях проявляются на критических путях вычислений.

Основные изменения в HyperParallel-MoE включают три пункта.
Первое — разработка односторонней команды записи, управляемой AIV, которая инициирует вычисление сразу после получения данных плитки, без ожидания полной партии.
Второе — внедрение генерации задач плиток с учетом зависимостей, объединяющей коммуникационные и вычислительные операторы в единое абстрактное представление.
Третье — использование статического планировщика для предварительного формирования последовательности задач, позволяющего одновременно управлять двумя типами ядер внутри одного ядра (kernel), а также использовать быстрый кэш L2 для обмена промежуточными результатами, что снижает задержки при записи и чтении из медленной памяти HBM.

Тестирование показало, что при балансировке маршрутов на 64 узлах задержка модуля, отвечающего за вычисления экспертов (MoE-FFN), сократилась примерно на 36%, что соответствует увеличению скорости обработки данных до 58% (ускорение в 1.49–1.58 раза).
В полном цикле обучения скорость одноступенчатого процесса также выросла на 8–9%.
Это свидетельствует о том, что реальная эффективность Ascend зависит не только от аппаратных характеристик, но и от того, насколько хорошо компилятор и среда выполнения могут эффективно управлять ядрами AIC и AIV.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 7
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
GateUser-76dcd439
· 21м назад
国产芯片终于有专门针对MoE的优化框架了,HyperParallel-MoE这个瓦片级调度思路挺细
Ответить0
TreatEarningsAsSnacks
· 4ч назад
Экосистема CUDA слишком глубока, замена отечественными решениями невозможна просто так, требуется такая же фундаментальная переработка
Посмотреть ОригиналОтветить0
CapitalFlowInATeacup
· 4ч назад
Самостоятельное управление — это не лозунг, а то, что вытащено из этих строк кода
Посмотреть ОригиналОтветить0
LiquidityLifeguard
· 4ч назад
Пекинский университет занимается системами, Университет Цинхуа — архитектурой, Huawei реализует проекты, эта модель сотрудничества между производством, учебой и исследованиями — именно то, что нужно.
Посмотреть ОригиналОтветить0
BridgeSideEyes
· 4ч назад
Низкая эффективность использования вычислительных мощностей всегда была проблемой для Ascend. Насколько можно повысить сейчас? Есть ли данные?
Посмотреть ОригиналОтветить0
GateUser-de0b9e3b
· 4ч назад
Huawei серьезно занимается компиляторами, от MindSpore до этого набора фреймворков, экосистема постепенно дополняется.
Посмотреть ОригиналОтветить0
GateUser-26374bb4
· 4ч назад
MoE изначально зависит от управления, чтобы отечественные чипы смогли догнать, необходимо уделять внимание таким деталям
Посмотреть ОригиналОтветить0
  • Закреплено