Menurut pemantauan Beating, mahasiswa doktoral Princeton Yifan Zhang memperbarui detail teknologi DeepSeek V4 di X. Dia mengumumkan “V4 minggu depan” pada 19 April dan menyebutkan tiga nama komponen arsitektur, malam ini merilis tabel parameter lengkap, dan untuk pertama kalinya mengungkapkan adanya versi ringan V4-Lite dengan 285 miliar parameter.

Total parameter V4 adalah 1,6 triliun. Mekanisme perhatian menggunakan DSA2, menggabungkan dua skema perhatian jarang yang digunakan sebelumnya di DeepSeek V3.2, yaitu DSA (DeepSeek Sparse Attention) dan NSA (Native Sparse Attention) yang diusulkan dalam makalah awal tahun ini, dengan head-dim 512, dikombinasikan dengan Sparse MQA dan SWA (attention jendela geser). Layer MoE terdiri dari 384 ahli, aktif 6 sekaligus setiap waktu, menggunakan Fused MoE Mega-Kernel. Koneksi residual menggunakan Hyper-Connections.

Rincian yang pertama kali diungkapkan selama pelatihan meliputi: optimizer menggunakan Muon (sebuah optimizer matriks yang menerapkan Newton-Schulz orthogonalization untuk pembaruan momentum), panjang konteks pra-pelatihan 32K, fase pembelajaran penguatan menggunakan GRPO dan penyesuaian KL divergence. Panjang konteks akhir diperluas menjadi 1 juta. Modalitasnya adalah teks murni.

Zhang tidak menjabat di DeepSeek, dan pihak resmi DeepSeek belum menanggapi informasi tersebut.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
Gate13thAnniversaryLive
1.16M Popularitas
#
WCTCTradingChallengeShare8MUSDT
784.12K Popularitas
#
BitcoinBouncesBack
202.72K Popularitas
#
IsraelStrikesIranBTCPlunges
30.66K Popularitas
#
USIranTalksProgress
787.75K Popularitas

Sematkan

peta situs

Yifan Zhang mengungkapkan spesifikasi lengkap DeepSeek V4: parameter 1.6T, 384 ahli aktifkan 6

Topik Trending

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

USIranTalksProgress

Sematkan