Yifan Zhang Mengungkapkan Spesifikasi Teknis Lengkap DeepSeek V4: 1,6T Parameter, 384 Ahli dengan 6 Aktif

Menurut pemantauan oleh Dongcha Beating, mahasiswa PhD Princeton Yifan Zhang memperbarui rincian teknis DeepSeek V4 di X. Dia menampilkan pratinjau ‘V4 minggu depan’ pada 19 April dan mencantumkan tiga nama komponen arsitektur, serta menyediakan tabel parameter lengkap malam ini, sekaligus mengungkapkan untuk pertama kalinya keberadaan versi ringan, V4-Lite, dengan 285B parameter. Total parameter untuk V4 adalah 1,6T. Mekanisme perhatian adalah DSA2, yang menggabungkan dua skema perhatian jarang: DSA (DeepSeek Sparse Attention) yang digunakan dalam V3.2 dan NSA (Native Sparse Attention) yang diusulkan dalam sebuah makalah awal tahun ini. Dimensi kepala adalah 512, dipasangkan dengan Sparse MQA dan SWA (Sliding Window Attention). Lapisan MoE memiliki total 384 ahli, dengan 6 diaktifkan sekaligus, menggunakan Fused MoE Mega-Kernel. Koneksi residual mengikuti Hyper-Connections. Rincian yang diungkapkan untuk fase pelatihan meliputi: optimizer yang digunakan adalah Muon (sebuah optimizer tingkat matriks yang menerapkan orthogonalization Newton-Schulz pada pembaruan momentum), dengan panjang konteks pra-pelatihan 32K, dan fase pembelajaran penguatan menggunakan GRPO dengan koreksi divergensi KL yang ditambahkan. Panjang konteks akhir diperpanjang menjadi 1 juta. Modality-nya adalah teks murni. Zhang tidak memegang posisi di DeepSeek, dan DeepSeek belum menanggapi informasi di atas.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan