Yifan Zhang mengungkapkan spesifikasi lengkap DeepSeek V4: parameter 1.6T, 384 ahli aktifkan 6

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, mahasiswa doktoral Princeton Yifan Zhang memperbarui detail teknologi DeepSeek V4 di X. Dia mengumumkan “V4 minggu depan” pada 19 April dan menyebutkan tiga nama komponen arsitektur, malam ini merilis tabel parameter lengkap, dan untuk pertama kalinya mengungkapkan adanya versi ringan V4-Lite dengan 285 miliar parameter.

Total parameter V4 adalah 1,6 triliun. Mekanisme perhatian menggunakan DSA2, menggabungkan dua skema perhatian jarang yang digunakan sebelumnya di DeepSeek V3.2, yaitu DSA (DeepSeek Sparse Attention) dan NSA (Native Sparse Attention) yang diusulkan dalam makalah awal tahun ini, dengan head-dim 512, dikombinasikan dengan Sparse MQA dan SWA (attention jendela geser). Layer MoE terdiri dari 384 ahli, aktif 6 sekaligus setiap waktu, menggunakan Fused MoE Mega-Kernel. Koneksi residual menggunakan Hyper-Connections.

Rincian yang pertama kali diungkapkan selama pelatihan meliputi: optimizer menggunakan Muon (sebuah optimizer matriks yang menerapkan Newton-Schulz orthogonalization untuk pembaruan momentum), panjang konteks pra-pelatihan 32K, fase pembelajaran penguatan menggunakan GRPO dan penyesuaian KL divergence. Panjang konteks akhir diperluas menjadi 1 juta. Modalitasnya adalah teks murni.

Zhang tidak menjabat di DeepSeek, dan pihak resmi DeepSeek belum menanggapi informasi tersebut.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan