Menurut pemantauan oleh Dongcha Beating, mahasiswa PhD Princeton Yifan Zhang memperbarui rincian teknis DeepSeek V4 di X. Dia menampilkan pratinjau ‘V4 minggu depan’ pada 19 April dan mencantumkan tiga nama komponen arsitektur, serta menyediakan tabel parameter lengkap malam ini, sekaligus mengungkapkan untuk pertama kalinya keberadaan versi ringan, V4-Lite, dengan 285B parameter. Total parameter untuk V4 adalah 1,6T. Mekanisme perhatian adalah DSA2, yang menggabungkan dua skema perhatian jarang: DSA (DeepSeek Sparse Attention) yang digunakan dalam V3.2 dan NSA (Native Sparse Attention) yang diusulkan dalam sebuah makalah awal tahun ini. Dimensi kepala adalah 512, dipasangkan dengan Sparse MQA dan SWA (Sliding Window Attention). Lapisan MoE memiliki total 384 ahli, dengan 6 diaktifkan sekaligus, menggunakan Fused MoE Mega-Kernel. Koneksi residual mengikuti Hyper-Connections. Rincian yang diungkapkan untuk fase pelatihan meliputi: optimizer yang digunakan adalah Muon (sebuah optimizer tingkat matriks yang menerapkan orthogonalization Newton-Schulz pada pembaruan momentum), dengan panjang konteks pra-pelatihan 32K, dan fase pembelajaran penguatan menggunakan GRPO dengan koreksi divergensi KL yang ditambahkan. Panjang konteks akhir diperpanjang menjadi 1 juta. Modality-nya adalah teks murni. Zhang tidak memegang posisi di DeepSeek, dan DeepSeek belum menanggapi informasi di atas.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
Gate13thAnniversaryLive
1.16M Popularitas
#
WCTCTradingChallengeShare8MUSDT
781.96K Popularitas
#
BitcoinBouncesBack
201.83K Popularitas
#
IsraelStrikesIranBTCPlunges
30.62K Popularitas
#
USIranTalksProgress
786.81K Popularitas

Sematkan

peta situs

Yifan Zhang Mengungkapkan Spesifikasi Teknis Lengkap DeepSeek V4: 1,6T Parameter, 384 Ahli dengan 6 Aktif

Topik Trending

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

USIranTalksProgress

Sematkan