Ni Yayu: Menghadirkan aplikasi cerdas di sisi perangkat, Guokewei mengembangkan NPU dan rangkaian alat yang lebih efisien

robot
Pembuatan abstrak sedang berlangsung

Trading saham, lihat laporan riset analis Golden Qilin; berwenang, profesional, tepat waktu, komprehensif—membantu Anda menggali peluang tema berpotensi!

(Sumber: 爱集微)

1 April, pada konferensi puncak 2026 Tiongkok untuk pemimpin IC pada forum teknis vertikal “AI Tepi dan Chip Komputasi”, Menteri Departemen Algoritma AI dari Guokewei (国科微) Ni Yayu menyampaikan pidato dengan judul《FlashAttention-4:Desain Pola Pipeline NPU untuk Inferensi Generasi Model yang Baru》。

Seiring percepatan model skala besar yang semakin menuju penerapan industri, efisiensi inferensi, bandwidth memori, dan konsumsi daya sistem menjadi hambatan kunci untuk deployment di sisi perangkat. Terutama dalam konteks Transformer dan evolusi berkelanjutan model bahasa besar, implementasi Attention (mekanisme perhatian) yang efisien telah menjadi terobosan penting dalam optimasi arsitektur chip dan toolchain.

Ni Yayu menyatakan bahwa Guokewei tengah memfokuskan eksplorasi penerapan teknologi mutakhir seperti FlashAttention di platform NPU, mendorong pembentukan arsitektur NPU dan toolchain yang lebih cocok untuk deployment produksi massal di sisi perangkat, serta menyediakan dukungan komputasi berperforma tinggi untuk skenario seperti mengemudi otomatis, edge computing, perangkat pintar, dan AIGC.

Tantangan masih dihadapi oleh “FlashAttention versi full-power” pada deployment NPU

Sebagai salah satu struktur komputasi inti dalam model skala besar, mekanisme perhatian umumnya menghadapi masalah seperti biaya akses memori yang tinggi dan efisiensi pipeline yang terbatas selama operasi aktual. Pengenalan FlashAttention menyediakan jalur baru untuk mengatasi masalah ini.

FlashAttention adalah algoritma perhatian presisi yang cepat dan hemat memori, yang diajukan oleh Tri Dao dari Stanford University dan lainnya pada tahun 2022. Algoritma ini melakukan rekonstruksi ekuivalen pada proses komputasi perhatian: melalui perhitungan berbasis blok, Softmax daring, komputasi ulang, dan pipeline asinkron, proses komputasi antara dipertahankan di cache on-chip, sehingga mengurangi tekanan bandwidth akses memori penyimpanan eksternal dan secara signifikan meningkatkan efisiensi inferensi.

Pada pertengahan Maret yang baru saja berlalu, versi FlashAttention 4.0 resmi dirilis. Ni Yayu menyatakan bahwa sejak FlashAttention berevolusi dari 1.0 ke 4.0, peningkatan terus berlangsung dalam hal paralelisme, dukungan untuk urutan panjang, komputasi presisi rendah, dan eksekusi asinkron. Namun dibandingkan GPU, NPU saat ini masih memiliki kesenjangan dalam kemampuan seperti compute unit untuk unit vektor, penataan pipeline asinkron, penjadwalan dinamis, dan konteks yang sangat panjang. Ni Yayu menyatakan bahwa untuk mewujudkan “FlashAttention versi full-power”, diperlukan desain yang terkoordinasi yang berfokus pada pipeline komputasi, penggunaan ulang data, serta bandwidth sistem.

Guokewei NPU 4.0: membangun unit inferensi yang lebih efisien

Sejak 2020, Guokewei terus berinvestasi dalam pengembangan mandiri NPU, membentuk jalur evolusi dari GKNPU 1.0 hingga 4.0. Kapabilitas produk ditingkatkan menuju komputasi berdaya lebih tinggi, cakupan model yang lebih luas, serta rasio efisiensi energi yang lebih baik. Saat ini, chip seri AI Vision dan AI untuk kendaraan dari Guokewei telah mengintegrasikan NPU versi 3.0, mendukung kemampuan komputasi dari 0,5T hingga 8T, serta mendukung penerapan model AI seperti visi, audio, dan time series pada perangkat sisi (edge).

Dalam rancangan arsitektur GKNPU 4.0, Guokewei mengusulkan arsitektur pulsa array yang ditingkatkan (enhanced pulsed array) yang berorientasi pada komputasi perhatian yang efisien. Secara spesifik, ia memperluas kemampuan komputasi matriks dan vektor, memperkuat dukungan terhadap operasi kunci dalam mekanisme perhatian model skala besar, mengompresi jalur pemindahan data dan biaya pipeline, serta memperkuat kemampuan perhitungan close-loop di chip. Desain ini bertujuan untuk mengurangi ketergantungan pada bandwidth eksternal, meningkatkan efisiensi eksekusi pada rantai inferensi, serta secara efektif menangani hambatan bandwidth dalam inferensi model skala besar, tekanan memori akibat fragmentasi nilai aktivasi, dan konteks yang sangat panjang.

Memperkuat toolchain, mendorong deployment skala yang efisien

Seiring evolusi arsitektur NPU, Guokewei terus memperkuat kapabilitas toolchain. GKToolchain 3.0 generasi baru ditujukan untuk skenario komputasi heterogen di sisi perangkat. Fokusnya adalah meningkatkan kapabilitas kompilasi yang peka terhadap perangkat keras, pembagian blok otomatis, vektorisasi otomatis, pembacaan/penulisan data asinkron, serta orkestrasi pipeline komputasi, sehingga mendorong deployment model dari “dapat disesuaikan” menuju “berefisiensi tinggi dan dapat diskalakan”.

Pada saat yang sama, toolchain terus berevolusi ke arah yang lebih mutakhir seperti manajemen memori dinamis dan percepatan inferensi spekulatif, untuk meningkatkan kemampuan dukungannya terhadap manajemen konteks panjang dan alur inferensi yang kompleks, serta membantu pelanggan menyelesaikan deployment close-loop yang efisien dari model ke chip.

Ketika aplikasi AI bergeser dari sisi pelatihan ke sisi inferensi, dan dari cloud ke terminal, kebutuhan industri terhadap platform komputasi berubah dari “kinerja puncak” menjadi kapabilitas komprehensif “efisiensi energi tinggi, dapat diproduksi massal, dan mudah dideploy”. NPU memiliki keunggulan biaya dan konsumsi daya yang signifikan dalam penerapan skala di sisi perangkat.

Ni Yayu menyatakan bahwa Guokewei akan terus berpegang pada inovasi kolaboratif antara algoritma dan perangkat keras, berfokus pada hambatan inti inferensi model skala besar, secara terus-menerus menyempurnakan arsitektur NPU, kapabilitas produk, dan sistem toolchain, serta mendorong evolusi platform komputasi cerdas di sisi perangkat ke arah kinerja lebih tinggi, konsumsi daya lebih rendah, dan kemampuan rekayasa yang lebih mudah diterapkan, untuk menyediakan solusi komputasi yang lebih kompetitif bagi pelanggan.

Banjir informasi dan interpretasi yang akurat, semuanya ada di aplikasi Sina Finance (新浪财经APP)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan