Según la monitorización de Beating, en la evolución de arquitecturas MoE a gran escala, utilizar chips nacionales Ascend para entrenar grandes modelos se ha convertido en una dirección clave para construir capacidades de IA autónomas y controladas. Sin embargo, la mayoría de los marcos de grandes modelos comerciales están basados en el ecosistema CUDA de Nvidia, y la migración directa a la plataforma Ascend a menudo enfrenta desafíos como una programación de colas de hardware desigual y baja utilización de la potencia de cálculo. La Universidad de Ciencia y Tecnología de China, Huawei y la Universidad de Pekín han lanzado conjuntamente el marco de programación y planificación HyperParallel-MoE, que ajusta a nivel de mosaico (tile-level) las colas de hardware únicas del Ascend A3, con el objetivo de superar los cuellos de botella en eficiencia energética en la programación paralela de capacidades heterogéneas.

El Ascend A3 cuenta con dos tipos de núcleos: AIC, responsable de multiplicación de matrices, y AIV, que maneja cálculos vectoriales y comunicación. Sin embargo, en la programación secuencial tradicional de operadores, ambos tipos de núcleos solo pueden trabajar alternadamente y quedar inactivos en turnos. Datos de pruebas muestran que, al ejecutar un gran modelo estilo DeepSeek de 671 mil millones en un clúster de 256 nodos, la utilización de AIC es solo del 67%, y el 39% de la latencia de comunicación de enrutamiento de expertos se expone en rutas críticas de cálculo.

Las principales modificaciones en HyperParallel-MoE son tres. Primero, el diseño de un primitivo de escritura unilateral impulsado por AIV, que hace que los mosaicos de datos activen el cálculo en cuanto llegan, sin esperar a que toda la tanda esté completa. Segundo, la introducción de generación de tareas de mosaico con dependencia perceptiva, que abstrae unificada la comunicación y los operadores de cálculo. Tercero, un planificador estático pregenerador de secuencias de tareas que impulsa en paralelo ambos tipos de núcleos dentro de un solo kernel, y comparte resultados intermedios mediante una caché L2 de alta velocidad, reduciendo la latencia de escritura y lectura en la memoria HBM lenta.

Las pruebas muestran que, bajo enrutamiento equilibrado de 64 nodos, el módulo principal responsable del cálculo de expertos (MoE-FFN) reduce su latencia en aproximadamente un 36%, lo que equivale a una mejora en la velocidad de procesamiento de datos de hasta un 58% (es decir, un aumento de 1.49 a 1.58 veces en la velocidad). En la ejecución de extremo a extremo del sistema, la velocidad de entrenamiento por paso también aumentó entre un 8% y un 9%. Esto indica que la eficiencia energética real del Ascend no solo depende de las especificaciones del hardware, sino también de si el compilador y el entorno de ejecución pueden programar de manera eficiente los núcleos AIC/AIV.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

10 me gusta

Recompensa
10
7
Republicar
Compartir

Comentar

Añadir un comentario

GateUser-76dcd439

· Hace22m

Los chips nacionales finalmente tienen un marco de optimización específico para MoE, la idea de programación a nivel de mosaico de HyperParallel-MoE es bastante detallada.

Ver originalResponder0

TreatEarningsAsSnacks

· hace4h

La barrera ecológica de CUDA es demasiado profunda, la sustitución nacional no puede simplemente copiarse, se requiere una reestructuración fundamental de este tipo

Ver originalResponder0

CapitalFlowInATeacup

· hace4h

El control autónomo no es solo un lema, sino que se obtiene línea por línea de código.

Ver originalResponder0

LiquidityLifeguard

· hace4h

Peking University desarrolla sistemas, la Universidad de Ciencia y Tecnología de China trabaja en arquitectura, Huawei implementa, este modelo de producción, academia e investigación es el que realmente encaja.

Ver originalResponder0

BridgeSideEyes

· hace4h

La baja utilización de la potencia de cálculo ha sido un problema persistente para Ascend, ¿cuánto se puede mejorar esta vez? ¿Hay datos?

Ver originalResponder0

GateUser-de0b9e3b

· hace4h

Huawei está tomando en serio la creación de compiladores, desde MindSpore hasta este conjunto de marcos, el ecosistema se está completando lentamente.

Ver originalResponder0

GateUser-26374bb4

· hace4h

MoE ya consume en la programación, las chips nacionales deben esforzarse en estos detalles para alcanzarlas

Ver originalResponder0

Temas de actualidad
Ver más
#
StockTradingChallengeUpTo17000U
15.92M Popularidad
#
USIranDraftDeal
285.97K Popularidad
#
IsraelStrikesIranBTCPlunges
49.15K Popularidad
#
2gGoldEvery10Minutes
3.04M Popularidad
#
HYPEMarketCapSurpassesDOGE
12.64M Popularidad

Fijado

Huawei y la Universidad de Ciencia y Tecnología de China unen fuerzas para romper el monopolio de Nvidia, el experto en aceleración de modelos grandes Ascend A3 aumenta la velocidad de cálculo en un 58%

Temas de actualidad

StockTradingChallengeUpTo17000U

USIranDraftDeal

IsraelStrikesIranBTCPlunges

2gGoldEvery10Minutes

HYPEMarketCapSurpassesDOGE

Fijado