Menurut pemantauan Beating, dalam evolusi arsitektur MoE skala besar, memanfaatkan chip domestik Ascend untuk melatih model besar telah menjadi arah kunci dalam membangun kekuatan AI yang mandiri dan dapat dikendalikan. Namun, sebagian besar kerangka model besar utama dikembangkan berdasarkan ekosistem CUDA dari Nvidia, sehingga saat dipindahkan langsung ke platform Ascend, sering menghadapi tantangan seperti penjadwalan antrean perangkat keras yang tidak merata dan rendahnya pemanfaatan daya komputasi. Universitas Tiongkok, Huawei, dan Peking University secara bersama-sama meluncurkan kerangka penjadwalan kompilasi HyperParallel-MoE, yang menyesuaikan dengan antrean perangkat keras unik dari Ascend A3 melalui pengaturan tingkat ubin (tile-level), bertujuan untuk mengatasi hambatan efisiensi energi dalam penjadwalan heterogen daya komputasi secara paralel.

Ascend A3 memiliki dua jenis inti, AIC bertanggung jawab atas perkalian matriks, sedangkan AIV menangani komputasi vektor dan komunikasi. Namun, dalam penjadwalan operator secara serial tradisional, kedua jenis inti ini hanya dapat bekerja secara bergantian dan bergiliran tidak aktif. Data pengujian menunjukkan bahwa saat menjalankan model besar bergaya DeepSeek dengan 671 miliar parameter di cluster 256 node, tingkat pemanfaatan AIC hanya 67%, dan 39% dari latensi komunikasi rute pakar terpapar pada jalur komputasi kritis.

Tiga perubahan utama pada inti HyperParallel-MoE. Pertama, merancang primal penulisan satu sisi yang didorong oleh AIV, sehingga data ubin yang tiba langsung memicu komputasi tanpa menunggu seluruh batch lengkap. Kedua, memperkenalkan pembuatan tugas ubin yang bergantung pada kesadaran, mengabstraksi komunikasi dan operator komputasi secara bersamaan. Ketiga, menggunakan penjadwal statis untuk menghasilkan urutan tugas sebelumnya, menggerakkan kedua jenis inti secara paralel dalam satu kernel, dan memanfaatkan cache L2 berkecepatan tinggi untuk berbagi hasil sementara, mengurangi latensi penulisan kembali dan pembacaan dari memori lambat HBM.

Pengujian menunjukkan bahwa di bawah routing seimbang 64 node, modul inti yang bertanggung jawab atas komputasi pakar (MoE-FFN) mengurangi latensi sekitar 36%, yang setara dengan peningkatan kecepatan pemrosesan data hingga 58% (yaitu peningkatan dari 1,49 menjadi 1,58 kali). Dalam operasi end-to-end seluruh sistem, kecepatan pelatihan per langkah juga meningkat secara bersamaan sebesar 8% hingga 9%. Ini menunjukkan bahwa efisiensi energi nyata Ascend tidak hanya bergantung pada spesifikasi perangkat keras, tetapi juga pada seberapa efisien compiler dan runtime dapat menjadwalkan inti AIC/AIV secara optimal.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

10 Suka

Hadiah
10
7
Posting ulang
Bagikan

Komentar

Tambahkan komentar

GateUser-76dcd439

· 22menit yang lalu

Chip domestik akhirnya memiliki kerangka kerja optimisasi khusus untuk MoE, HyperParallel-MoE, pendekatan penjadwalan tingkat ubin ini cukup rinci

Lihat AsliBalas0

TreatEarningsAsSnacks

· 4jam yang lalu

The moat of the CUDA ecosystem is too deep, domestic replacement cannot be a direct copy, it requires this kind of fundamental restructuring

Lihat AsliBalas0

CapitalFlowInATeacup

· 4jam yang lalu

Kendali mandiri bukanlah sekadar slogan, melainkan hasil dari baris demi baris kode yang disusun.

Lihat AsliBalas0

LiquidityLifeguard

· 4jam yang lalu

Peking University mengerjakan sistem, University of Science and Technology of China mengerjakan arsitektur, Huawei menerapkan, model kolaborasi industri, akademik, dan penelitian ini yang paling sesuai

Lihat AsliBalas0

BridgeSideEyes

· 4jam yang lalu

Rendemen penggunaan daya komputasi yang rendah selalu menjadi masalah utama Ascend, berapa banyak yang bisa ditingkatkan kali ini? Apakah ada data?

Lihat AsliBalas0

GateUser-de0b9e3b

· 4jam yang lalu

Huawei serius mengembangkan compiler, dari MindSpore hingga kerangka kerja ini, ekosistem sedang perlahan melengkapi diri

Lihat AsliBalas0

GateUser-26374bb4

· 4jam yang lalu

MoE memang sudah mengandalkan penjadwalan, chip domestik yang ingin mengejar harus berjuang di detail seperti ini

Lihat AsliBalas0

Topik Trending
Lihat Lebih Banyak
#
StockTradingChallengeUpTo17000U
15.92M Popularitas
#
USIranDraftDeal
285.97K Popularitas
#
IsraelStrikesIranBTCPlunges
49.15K Popularitas
#
2gGoldEvery10Minutes
3.04M Popularitas
#
HYPEMarketCapSurpassesDOGE
12.64M Popularitas

Disematkan

peta situs

Huawei dan Universitas Sains dan Teknologi China bekerja sama mengatasi monopoli Nvidia, mempercepat perhitungan model besar pada Ascend A3 sebesar 58%

Topik Trending

StockTradingChallengeUpTo17000U

USIranDraftDeal

IsraelStrikesIranBTCPlunges

2gGoldEvery10Minutes

HYPEMarketCapSurpassesDOGE

Disematkan