Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Launchpad
Jadi yang pertama untuk proyek token besar berikutnya
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Ni Yayu: Menghadirkan aplikasi cerdas di sisi perangkat, Guokewei mengembangkan NPU dan rangkaian alat yang lebih efisien
(Sumber: 爱集微)
1 April, pada konferensi puncak 2026 Tiongkok untuk pemimpin IC pada forum teknis vertikal “AI Tepi dan Chip Komputasi”, Menteri Departemen Algoritma AI dari Guokewei (国科微) Ni Yayu menyampaikan pidato dengan judul《FlashAttention-4:Desain Pola Pipeline NPU untuk Inferensi Generasi Model yang Baru》。
Seiring percepatan model skala besar yang semakin menuju penerapan industri, efisiensi inferensi, bandwidth memori, dan konsumsi daya sistem menjadi hambatan kunci untuk deployment di sisi perangkat. Terutama dalam konteks Transformer dan evolusi berkelanjutan model bahasa besar, implementasi Attention (mekanisme perhatian) yang efisien telah menjadi terobosan penting dalam optimasi arsitektur chip dan toolchain.
Ni Yayu menyatakan bahwa Guokewei tengah memfokuskan eksplorasi penerapan teknologi mutakhir seperti FlashAttention di platform NPU, mendorong pembentukan arsitektur NPU dan toolchain yang lebih cocok untuk deployment produksi massal di sisi perangkat, serta menyediakan dukungan komputasi berperforma tinggi untuk skenario seperti mengemudi otomatis, edge computing, perangkat pintar, dan AIGC.
Tantangan masih dihadapi oleh “FlashAttention versi full-power” pada deployment NPU
Sebagai salah satu struktur komputasi inti dalam model skala besar, mekanisme perhatian umumnya menghadapi masalah seperti biaya akses memori yang tinggi dan efisiensi pipeline yang terbatas selama operasi aktual. Pengenalan FlashAttention menyediakan jalur baru untuk mengatasi masalah ini.
FlashAttention adalah algoritma perhatian presisi yang cepat dan hemat memori, yang diajukan oleh Tri Dao dari Stanford University dan lainnya pada tahun 2022. Algoritma ini melakukan rekonstruksi ekuivalen pada proses komputasi perhatian: melalui perhitungan berbasis blok, Softmax daring, komputasi ulang, dan pipeline asinkron, proses komputasi antara dipertahankan di cache on-chip, sehingga mengurangi tekanan bandwidth akses memori penyimpanan eksternal dan secara signifikan meningkatkan efisiensi inferensi.
Pada pertengahan Maret yang baru saja berlalu, versi FlashAttention 4.0 resmi dirilis. Ni Yayu menyatakan bahwa sejak FlashAttention berevolusi dari 1.0 ke 4.0, peningkatan terus berlangsung dalam hal paralelisme, dukungan untuk urutan panjang, komputasi presisi rendah, dan eksekusi asinkron. Namun dibandingkan GPU, NPU saat ini masih memiliki kesenjangan dalam kemampuan seperti compute unit untuk unit vektor, penataan pipeline asinkron, penjadwalan dinamis, dan konteks yang sangat panjang. Ni Yayu menyatakan bahwa untuk mewujudkan “FlashAttention versi full-power”, diperlukan desain yang terkoordinasi yang berfokus pada pipeline komputasi, penggunaan ulang data, serta bandwidth sistem.
Guokewei NPU 4.0: membangun unit inferensi yang lebih efisien
Sejak 2020, Guokewei terus berinvestasi dalam pengembangan mandiri NPU, membentuk jalur evolusi dari GKNPU 1.0 hingga 4.0. Kapabilitas produk ditingkatkan menuju komputasi berdaya lebih tinggi, cakupan model yang lebih luas, serta rasio efisiensi energi yang lebih baik. Saat ini, chip seri AI Vision dan AI untuk kendaraan dari Guokewei telah mengintegrasikan NPU versi 3.0, mendukung kemampuan komputasi dari 0,5T hingga 8T, serta mendukung penerapan model AI seperti visi, audio, dan time series pada perangkat sisi (edge).
Dalam rancangan arsitektur GKNPU 4.0, Guokewei mengusulkan arsitektur pulsa array yang ditingkatkan (enhanced pulsed array) yang berorientasi pada komputasi perhatian yang efisien. Secara spesifik, ia memperluas kemampuan komputasi matriks dan vektor, memperkuat dukungan terhadap operasi kunci dalam mekanisme perhatian model skala besar, mengompresi jalur pemindahan data dan biaya pipeline, serta memperkuat kemampuan perhitungan close-loop di chip. Desain ini bertujuan untuk mengurangi ketergantungan pada bandwidth eksternal, meningkatkan efisiensi eksekusi pada rantai inferensi, serta secara efektif menangani hambatan bandwidth dalam inferensi model skala besar, tekanan memori akibat fragmentasi nilai aktivasi, dan konteks yang sangat panjang.
Memperkuat toolchain, mendorong deployment skala yang efisien
Seiring evolusi arsitektur NPU, Guokewei terus memperkuat kapabilitas toolchain. GKToolchain 3.0 generasi baru ditujukan untuk skenario komputasi heterogen di sisi perangkat. Fokusnya adalah meningkatkan kapabilitas kompilasi yang peka terhadap perangkat keras, pembagian blok otomatis, vektorisasi otomatis, pembacaan/penulisan data asinkron, serta orkestrasi pipeline komputasi, sehingga mendorong deployment model dari “dapat disesuaikan” menuju “berefisiensi tinggi dan dapat diskalakan”.
Pada saat yang sama, toolchain terus berevolusi ke arah yang lebih mutakhir seperti manajemen memori dinamis dan percepatan inferensi spekulatif, untuk meningkatkan kemampuan dukungannya terhadap manajemen konteks panjang dan alur inferensi yang kompleks, serta membantu pelanggan menyelesaikan deployment close-loop yang efisien dari model ke chip.
Ketika aplikasi AI bergeser dari sisi pelatihan ke sisi inferensi, dan dari cloud ke terminal, kebutuhan industri terhadap platform komputasi berubah dari “kinerja puncak” menjadi kapabilitas komprehensif “efisiensi energi tinggi, dapat diproduksi massal, dan mudah dideploy”. NPU memiliki keunggulan biaya dan konsumsi daya yang signifikan dalam penerapan skala di sisi perangkat.
Ni Yayu menyatakan bahwa Guokewei akan terus berpegang pada inovasi kolaboratif antara algoritma dan perangkat keras, berfokus pada hambatan inti inferensi model skala besar, secara terus-menerus menyempurnakan arsitektur NPU, kapabilitas produk, dan sistem toolchain, serta mendorong evolusi platform komputasi cerdas di sisi perangkat ke arah kinerja lebih tinggi, konsumsi daya lebih rendah, dan kemampuan rekayasa yang lebih mudah diterapkan, untuk menyediakan solusi komputasi yang lebih kompetitif bagi pelanggan.
Banjir informasi dan interpretasi yang akurat, semuanya ada di aplikasi Sina Finance (新浪财经APP)