Analisis: Konten sumber terbuka TileKernels banyak sesuai dengan spesifikasi arsitektur V4 yang sebelumnya diungkapkan oleh Yifan Zhang

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, perpustakaan inti TileKernels yang bersumber terbuka dari DeepSeek memiliki beberapa kecocokan dengan spesifikasi arsitektur V4 yang sebelumnya diungkapkan oleh Yifan Zhang.

Zhang menyebutkan bahwa V4 menggunakan Hyper-Connections untuk sambungan residual. TileKernels yang bersumber terbuka adalah inti mHC (Manifold-Constrained Hyper-Connections), yang merupakan versi perbaikan dari HC yang diusulkan tim Seed dari DeepSeek pada tahun 2024, yaitu HC dengan pembatasan matriks acak ganda, yang mengatasi masalah penyebaran sinyal saat pelatihan skala besar dari HC asli. mHC sendiri termasuk dalam kategori Hyper-Connections, sedangkan HC asli tidak mampu mendukung pelatihan skala besar secara stabil, sehingga yang digunakan dalam V4 kemungkinan besar adalah mHC. Zhang menyebutkan bahwa V4 menggunakan Fused MoE Mega-Kernel untuk mengelola layer MoE yang mengaktifkan 384 ahli dalam 6 unit, dan modul MoE TileKernels mencakup pemilihan ahli Top-k, pemetaan token ke ahli, serta distribusi dan pengumpulan ahli yang digabungkan.

TileKernels juga mencakup inti Engram, yang merupakan modul memori kondisional yang diusulkan dalam makalah DeepSeek bulan Januari tahun ini, tetapi spesifikasi V4 dari Zhang tidak menyebutkan Engram. Perpustakaan ini mendukung SM90 (Hopper) dan SM100 (Blackwell), tanpa dukungan dari Huawei Ascend. Sebelumnya, 《The Information》 melaporkan bahwa V4 dilatih di Blackwell, dan DeepSeek menghabiskan beberapa bulan untuk menyesuaikan model dengan chip Huawei dan Cambrian.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan