Di X, mahasiswa doktoral Princeton Zhang mengungkapkan poin-poin DeepSeek V4: V4/V4-Lite masing-masing memiliki 285B dan 1,6T parameter, menggunakan perhatian jarang DSA2 (DSA+NSA), head-dim512, Sparse MQA dan SWA, ahli MoE384, mengaktifkan 6 sekaligus, didukung oleh Fused Mega-Kernel dan Hyper-Connections. Pelatihan menggunakan optimizer Muon, konteks sekitar 32K, tahap RL dengan koreksi GRPO+KL, akhirnya konteks diperluas hingga 1 juta. Modalitasnya adalah teks murni; Zhang bukan pegawai DeepSeek, dan pihak resmi belum merespons.

MeNews

2026-04-22 16:20:18

Pembuatan abstrak sedang berlangsung

Berita ME, 22 April (UTC+8), menurut pemantauan Beating dari Dongcha, mahasiswa doktoral Princeton Yifan Zhang memperbarui detail teknologi DeepSeek V4 di X. Dia mengumumkan “V4 minggu depan” pada 19 April dan menyebutkan tiga nama komponen arsitektur, malam ini merilis tabel parameter lengkap, serta mengungkapkan untuk pertama kalinya adanya versi ringan V4-Lite dengan 285 miliar parameter. Total parameter V4 adalah 1,6 triliun. Mekanisme perhatian menggunakan DSA2, menggabungkan dua skema perhatian jarang yang digunakan sebelumnya di V3.2, yaitu DSA (DeepSeek Sparse Attention) dan NSA (Native Sparse Attention) yang diusulkan dalam makalah awal tahun ini, dengan head-dim 512, dipadukan dengan Sparse MQA dan SWA (attention jendela geser). Layer MoE terdiri dari 384 ahli, setiap kali mengaktifkan 6, menggunakan Fused MoE Mega-Kernel. Koneksi residual menggunakan Hyper-Connections. Detail yang diungkap pertama kali selama pelatihan meliputi: optimizer menggunakan Muon (sejenis optimizer matriks yang menerapkan Newton-Schulz orthogonalization untuk pembaruan momentum), panjang konteks pra-pelatihan 32K, fase pembelajaran penguatan menggunakan GRPO dan penyesuaian KL divergence. Panjang konteks akhirnya diperluas menjadi 1 juta. Modalnya adalah teks murni. Zhang tidak menjabat di DeepSeek, dan pihak resmi DeepSeek belum memberikan tanggapan terhadap informasi tersebut. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
Gate13thAnniversaryLive
1.06M Popularitas
#
WCTCTradingChallengeShare8MUSDT
792.04K Popularitas
#
BitcoinBouncesBack
205.62K Popularitas
#
IsraelStrikesIranBTCPlunges
30.66K Popularitas
#
EthereumMemeSeasonReturns
2M Popularitas

Sematkan

peta situs

Yifan Zhang mengungkapkan spesifikasi lengkap DeepSeek V4: 1,6T parameter, 384 ahli mengaktifkan 6 unit

Topik Trending

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Sematkan