Huawei y la Universidad de Ciencia y Tecnología de China unen fuerzas para romper el monopolio de Nvidia, el experto en aceleración de modelos grandes Ascend A3 aumenta la velocidad de cálculo en un 58%

Según la monitorización de Beating, en la evolución de arquitecturas MoE a gran escala, utilizar chips nacionales Ascend para entrenar grandes modelos se ha convertido en una dirección clave para construir capacidades de IA autónomas y controladas. Sin embargo, la mayoría de los marcos de grandes modelos comerciales están basados en el ecosistema CUDA de Nvidia, y la migración directa a la plataforma Ascend a menudo enfrenta desafíos como una programación de colas de hardware desigual y baja utilización de la potencia de cálculo. La Universidad de Ciencia y Tecnología de China, Huawei y la Universidad de Pekín han lanzado conjuntamente el marco de programación y planificación HyperParallel-MoE, que ajusta a nivel de mosaico (tile-level) las colas de hardware únicas del Ascend A3, con el objetivo de superar los cuellos de botella en eficiencia energética en la programación paralela de capacidades heterogéneas.

El Ascend A3 cuenta con dos tipos de núcleos: AIC, responsable de multiplicación de matrices, y AIV, que maneja cálculos vectoriales y comunicación. Sin embargo, en la programación secuencial tradicional de operadores, ambos tipos de núcleos solo pueden trabajar alternadamente y quedar inactivos en turnos. Datos de pruebas muestran que, al ejecutar un gran modelo estilo DeepSeek de 671 mil millones en un clúster de 256 nodos, la utilización de AIC es solo del 67%, y el 39% de la latencia de comunicación de enrutamiento de expertos se expone en rutas críticas de cálculo.

Las principales modificaciones en HyperParallel-MoE son tres. Primero, el diseño de un primitivo de escritura unilateral impulsado por AIV, que hace que los mosaicos de datos activen el cálculo en cuanto llegan, sin esperar a que toda la tanda esté completa. Segundo, la introducción de generación de tareas de mosaico con dependencia perceptiva, que abstrae unificada la comunicación y los operadores de cálculo. Tercero, un planificador estático pregenerador de secuencias de tareas que impulsa en paralelo ambos tipos de núcleos dentro de un solo kernel, y comparte resultados intermedios mediante una caché L2 de alta velocidad, reduciendo la latencia de escritura y lectura en la memoria HBM lenta.

Las pruebas muestran que, bajo enrutamiento equilibrado de 64 nodos, el módulo principal responsable del cálculo de expertos (MoE-FFN) reduce su latencia en aproximadamente un 36%, lo que equivale a una mejora en la velocidad de procesamiento de datos de hasta un 58% (es decir, un aumento de 1.49 a 1.58 veces en la velocidad). En la ejecución de extremo a extremo del sistema, la velocidad de entrenamiento por paso también aumentó entre un 8% y un 9%. Esto indica que la eficiencia energética real del Ascend no solo depende de las especificaciones del hardware, sino también de si el compilador y el entorno de ejecución pueden programar de manera eficiente los núcleos AIC/AIV.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 7
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
GateUser-76dcd439
· Hace22m
Los chips nacionales finalmente tienen un marco de optimización específico para MoE, la idea de programación a nivel de mosaico de HyperParallel-MoE es bastante detallada.
Ver originalResponder0
TreatEarningsAsSnacks
· hace4h
La barrera ecológica de CUDA es demasiado profunda, la sustitución nacional no puede simplemente copiarse, se requiere una reestructuración fundamental de este tipo
Ver originalResponder0
CapitalFlowInATeacup
· hace4h
El control autónomo no es solo un lema, sino que se obtiene línea por línea de código.
Ver originalResponder0
LiquidityLifeguard
· hace4h
Peking University desarrolla sistemas, la Universidad de Ciencia y Tecnología de China trabaja en arquitectura, Huawei implementa, este modelo de producción, academia e investigación es el que realmente encaja.
Ver originalResponder0
BridgeSideEyes
· hace4h
La baja utilización de la potencia de cálculo ha sido un problema persistente para Ascend, ¿cuánto se puede mejorar esta vez? ¿Hay datos?
Ver originalResponder0
GateUser-de0b9e3b
· hace4h
Huawei está tomando en serio la creación de compiladores, desde MindSpore hasta este conjunto de marcos, el ecosistema se está completando lentamente.
Ver originalResponder0
GateUser-26374bb4
· hace4h
MoE ya consume en la programación, las chips nacionales deben esforzarse en estos detalles para alcanzarlas
Ver originalResponder0
  • Fijado