Huawei Chip Menunda Peluncuran DeepSeek V4? Kernel yang Sama Mencapai Kecepatan Hampir Dua Kali Lipat di NVIDIA Ascend

Menurut pemantauan oleh Dongcha Beating, sebelum peluncuran DeepSeek V4, ada spekulasi luas di komunitas bahwa peluncuran tersebut tertunda karena kesulitan dalam menyesuaikan model dari NVIDIA ke platform Huawei Ascend. Meskipun laporan teknis V4 tidak secara langsung membahas rumor ini, data kinerja yang diungkapkan sangat bertentangan dengannya. Laporan tersebut menunjukkan bahwa Skema Pembagian Pakar Halus (Skema EP Halus) telah berhasil diterapkan dan divalidasi pada GPU NVIDIA dan NPU Huawei Ascend, mencapai percepatan sebesar 1,50 hingga 1,73 kali untuk beban inferensi reguler, dan hingga 1,96 kali percepatan untuk skenario yang sensitif terhadap latensi seperti peluncuran RL dan layanan agen berkecepatan tinggi. Tim juga telah merilis open-source kernel versi CUDA MegaMoE sebagai bagian dari DeepGEMM. Dengan kata lain, V4 telah menunjukkan efisiensi mendekati batas teoretis pada kedua platform perangkat keras, dan adaptasi lintas platform tidak mengakibatkan kehilangan kinerja.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan