Huawei dan Universitas Sains dan Teknologi China bekerja sama mengatasi monopoli Nvidia, mempercepat perhitungan model besar pada Ascend A3 sebesar 58%

Menurut pemantauan Beating, dalam evolusi arsitektur MoE skala besar, memanfaatkan chip domestik Ascend untuk melatih model besar telah menjadi arah kunci dalam membangun kekuatan AI yang mandiri dan dapat dikendalikan. Namun, sebagian besar kerangka model besar utama dikembangkan berdasarkan ekosistem CUDA dari Nvidia, sehingga saat dipindahkan langsung ke platform Ascend, sering menghadapi tantangan seperti penjadwalan antrean perangkat keras yang tidak merata dan rendahnya pemanfaatan daya komputasi. Universitas Tiongkok, Huawei, dan Peking University secara bersama-sama meluncurkan kerangka penjadwalan kompilasi HyperParallel-MoE, yang menyesuaikan dengan antrean perangkat keras unik dari Ascend A3 melalui pengaturan tingkat ubin (tile-level), bertujuan untuk mengatasi hambatan efisiensi energi dalam penjadwalan heterogen daya komputasi secara paralel.

Ascend A3 memiliki dua jenis inti, AIC bertanggung jawab atas perkalian matriks, sedangkan AIV menangani komputasi vektor dan komunikasi. Namun, dalam penjadwalan operator secara serial tradisional, kedua jenis inti ini hanya dapat bekerja secara bergantian dan bergiliran tidak aktif. Data pengujian menunjukkan bahwa saat menjalankan model besar bergaya DeepSeek dengan 671 miliar parameter di cluster 256 node, tingkat pemanfaatan AIC hanya 67%, dan 39% dari latensi komunikasi rute pakar terpapar pada jalur komputasi kritis.

Tiga perubahan utama pada inti HyperParallel-MoE. Pertama, merancang primal penulisan satu sisi yang didorong oleh AIV, sehingga data ubin yang tiba langsung memicu komputasi tanpa menunggu seluruh batch lengkap. Kedua, memperkenalkan pembuatan tugas ubin yang bergantung pada kesadaran, mengabstraksi komunikasi dan operator komputasi secara bersamaan. Ketiga, menggunakan penjadwal statis untuk menghasilkan urutan tugas sebelumnya, menggerakkan kedua jenis inti secara paralel dalam satu kernel, dan memanfaatkan cache L2 berkecepatan tinggi untuk berbagi hasil sementara, mengurangi latensi penulisan kembali dan pembacaan dari memori lambat HBM.

Pengujian menunjukkan bahwa di bawah routing seimbang 64 node, modul inti yang bertanggung jawab atas komputasi pakar (MoE-FFN) mengurangi latensi sekitar 36%, yang setara dengan peningkatan kecepatan pemrosesan data hingga 58% (yaitu peningkatan dari 1,49 menjadi 1,58 kali). Dalam operasi end-to-end seluruh sistem, kecepatan pelatihan per langkah juga meningkat secara bersamaan sebesar 8% hingga 9%. Ini menunjukkan bahwa efisiensi energi nyata Ascend tidak hanya bergantung pada spesifikasi perangkat keras, tetapi juga pada seberapa efisien compiler dan runtime dapat menjadwalkan inti AIC/AIV secara optimal.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 7
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
GateUser-76dcd439
· 22menit yang lalu
Chip domestik akhirnya memiliki kerangka kerja optimisasi khusus untuk MoE, HyperParallel-MoE, pendekatan penjadwalan tingkat ubin ini cukup rinci
Lihat AsliBalas0
TreatEarningsAsSnacks
· 4jam yang lalu
The moat of the CUDA ecosystem is too deep, domestic replacement cannot be a direct copy, it requires this kind of fundamental restructuring
Lihat AsliBalas0
CapitalFlowInATeacup
· 4jam yang lalu
Kendali mandiri bukanlah sekadar slogan, melainkan hasil dari baris demi baris kode yang disusun.
Lihat AsliBalas0
LiquidityLifeguard
· 4jam yang lalu
Peking University mengerjakan sistem, University of Science and Technology of China mengerjakan arsitektur, Huawei menerapkan, model kolaborasi industri, akademik, dan penelitian ini yang paling sesuai
Lihat AsliBalas0
BridgeSideEyes
· 4jam yang lalu
Rendemen penggunaan daya komputasi yang rendah selalu menjadi masalah utama Ascend, berapa banyak yang bisa ditingkatkan kali ini? Apakah ada data?
Lihat AsliBalas0
GateUser-de0b9e3b
· 4jam yang lalu
Huawei serius mengembangkan compiler, dari MindSpore hingga kerangka kerja ini, ekosistem sedang perlahan melengkapi diri
Lihat AsliBalas0
GateUser-26374bb4
· 4jam yang lalu
MoE memang sudah mengandalkan penjadwalan, chip domestik yang ingin mengejar harus berjuang di detail seperti ini
Lihat AsliBalas0
  • Disematkan