Yifan Zhang mengungkapkan spesifikasi lengkap DeepSeek V4: 1,6T parameter, 384 aktivasi ahli untuk 6 bagian

robot
Pembuatan abstrak sedang berlangsung
Berita ME News, 22 April (UTC+8), menurut pemantauan Beating dari Dongcha, mahasiswa doktoral Princeton Yifan Zhang memperbarui detail teknologi DeepSeek V4 di X. Dia mengumumkan "V4 minggu depan" pada 19 April dan menyebutkan tiga nama komponen arsitektur, malam ini memberikan tabel parameter lengkap, serta mengungkapkan untuk pertama kalinya keberadaan versi ringan V4-Lite dengan 285B parameter. Total parameter V4 adalah 1.6T. Mekanisme perhatian menggunakan DSA2, menggabungkan DSA (DeepSeek Sparse Attention) yang digunakan sebelumnya di V3.2 dan NSA (Native Sparse Attention) yang diusulkan dalam makalah awal tahun ini, dua skema perhatian jarang, head-dim 512, dipadukan dengan Sparse MQA dan SWA (attention jendela geser). Layer MoE terdiri dari 384 ahli, setiap kali mengaktifkan 6, menggunakan Fused MoE Mega-Kernel. Koneksi residual menggunakan Hyper-Connections. Detail yang pertama kali diungkapkan selama pelatihan meliputi: optimizer menggunakan Muon (sebuah optimizer matriks yang menerapkan orthogonalization Newton-Schulz pada pembaruan momentum), panjang konteks pra-pelatihan 32K, fase pembelajaran penguatan menggunakan GRPO dan penyesuaian KL divergence. Panjang konteks akhirnya diperluas menjadi 1 juta. Modalitasnya adalah teks murni. Zhang tidak menjabat di DeepSeek, dan pihak resmi DeepSeek belum menanggapi informasi di atas. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan