Analisis: Konten Sumber Terbuka TileKernels Sesuai dengan Spesifikasi Arsitektur V4 dari Yifan Zhang

Menurut pemantauan oleh Dongcha Beating, perpustakaan kernel TileKernels yang bersumber terbuka oleh DeepSeek sesuai dalam beberapa hal dengan spesifikasi arsitektur V4 yang sebelumnya diungkapkan oleh Yifan Zhang. Zhang menyatakan bahwa koneksi residual V4 menggunakan Hyper-Connections. TileKernels yang bersumber terbuka menampilkan mHC (Hyper-Connections Terbatas Manifold), yang merupakan versi yang ditingkatkan dari HC yang diusulkan oleh tim Byte Seed pada tahun 2024, mengatasi masalah divergensi sinyal yang ditemui selama pelatihan skala besar dengan HC asli. mHC sendiri adalah jenis Hyper-Connections, karena HC asli tidak dapat mendukung pelatihan skala besar yang stabil; oleh karena itu, mHC kemungkinan besar adalah yang benar-benar digunakan dalam V4. Zhang menyebutkan bahwa V4 menggunakan Fused MoE Mega-Kernel untuk mengelola 384 aktivasi ahli di 6 lapisan MoE, sementara modul MoE dalam TileKernels mencakup pemilihan ahli Top-k, pemetaan token-ke-ahli, dan distribusi serta pengumpulan ahli yang digabungkan. TileKernels juga mengandung kernel Engram, yang merupakan modul memori kondisional yang diusulkan dalam sebuah makalah oleh DeepSeek awal tahun ini, tetapi Engram tidak disebutkan dalam spesifikasi V4 Zhang. Perpustakaan ini mendukung SM90 (Hopper) dan SM100 (Blackwell), tetapi tidak mendukung Huawei Ascend. Sebelumnya, The Information melaporkan bahwa V4 dilatih di Blackwell, dan DeepSeek telah menghabiskan berbulan-bulan menyesuaikan model untuk chip Huawei dan Cambricon.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan