Согласно мониторингу Beating, в ходе масштабной эволюции архитектуры MoE использование отечественных чипов Ascend для обучения больших моделей стало ключевым направлением в создании автономных и управляемых AI вычислительных мощностей.
Однако большинство популярных фреймворков для больших моделей основаны на экосистеме CUDA от Nvidia, и при переносе их на платформу Ascend возникают сложности, такие как неравномерное распределение очередей аппаратного обеспечения и низкая эффективность использования вычислительных ресурсов.
Совместно с Университетом Китая, Huawei и Пекинским университетом был представлен фреймворк для компиляции и планирования HyperParallel-MoE, который ориентирован на уникальные аппаратные очереди A3 Ascend и осуществляет управление на уровне плиток (tile-level), чтобы преодолеть энергетические узкие места при параллельном планировании разнородных вычислительных ресурсов.

A3 Ascend имеет два типа ядер: AIC отвечает за матричное умножение, а AIV занимается векторными вычислениями и коммуникациями.
Однако при традиционном последовательном планировании операторов эти два типа ядер работают по очереди, что ведет к простоям.
Практические данные показывают, что при запуске крупной модели DeepSeek объемом 671 миллиард на кластере из 256 узлов использование AIC составляет всего 67%, а 39% задержек при маршрутизации экспертов и коммуникациях проявляются на критических путях вычислений.

Основные изменения в HyperParallel-MoE включают три пункта.
Первое — разработка односторонней команды записи, управляемой AIV, которая инициирует вычисление сразу после получения данных плитки, без ожидания полной партии.
Второе — внедрение генерации задач плиток с учетом зависимостей, объединяющей коммуникационные и вычислительные операторы в единое абстрактное представление.
Третье — использование статического планировщика для предварительного формирования последовательности задач, позволяющего одновременно управлять двумя типами ядер внутри одного ядра (kernel), а также использовать быстрый кэш L2 для обмена промежуточными результатами, что снижает задержки при записи и чтении из медленной памяти HBM.

Тестирование показало, что при балансировке маршрутов на 64 узлах задержка модуля, отвечающего за вычисления экспертов (MoE-FFN), сократилась примерно на 36%, что соответствует увеличению скорости обработки данных до 58% (ускорение в 1.49–1.58 раза).
В полном цикле обучения скорость одноступенчатого процесса также выросла на 8–9%.
Это свидетельствует о том, что реальная эффективность Ascend зависит не только от аппаратных характеристик, но и от того, насколько хорошо компилятор и среда выполнения могут эффективно управлять ядрами AIC и AIV.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

10 Лайков

Награда
10
7
Репост
Поделиться

комментарий

Добавить комментарий

GateUser-76dcd439

· 21м назад

国产芯片终于有专门针对MoE的优化框架了，HyperParallel-MoE这个瓦片级调度思路挺细

Ответить0

TreatEarningsAsSnacks

· 4ч назад

Экосистема CUDA слишком глубока, замена отечественными решениями невозможна просто так, требуется такая же фундаментальная переработка

Посмотреть ОригиналОтветить0

CapitalFlowInATeacup

· 4ч назад

Самостоятельное управление — это не лозунг, а то, что вытащено из этих строк кода

Посмотреть ОригиналОтветить0

LiquidityLifeguard

· 4ч назад

Пекинский университет занимается системами, Университет Цинхуа — архитектурой, Huawei реализует проекты, эта модель сотрудничества между производством, учебой и исследованиями — именно то, что нужно.

Посмотреть ОригиналОтветить0

BridgeSideEyes

· 4ч назад

Низкая эффективность использования вычислительных мощностей всегда была проблемой для Ascend. Насколько можно повысить сейчас? Есть ли данные?

Посмотреть ОригиналОтветить0

GateUser-de0b9e3b

· 4ч назад

Huawei серьезно занимается компиляторами, от MindSpore до этого набора фреймворков, экосистема постепенно дополняется.

Посмотреть ОригиналОтветить0

GateUser-26374bb4

· 4ч назад

MoE изначально зависит от управления, чтобы отечественные чипы смогли догнать, необходимо уделять внимание таким деталям

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
StockTradingChallengeUpTo17000U
15.92M Популярность
#
USIranDraftDeal
285.97K Популярность
#
IsraelStrikesIranBTCPlunges
49.15K Популярность
#
2gGoldEvery10Minutes
3.04M Популярность
#
HYPEMarketCapSurpassesDOGE
12.64M Популярность

Закреплено

Карта сайта

Huawei and USTC jointly break NVIDIA's monopoly, Ascend A3 accelerates large model expert computation speed by 58%

Популярные темы

StockTradingChallengeUpTo17000U

USIranDraftDeal

IsraelStrikesIranBTCPlunges

2gGoldEvery10Minutes

HYPEMarketCapSurpassesDOGE

Закреплено