Model open-source terkuat deepseek v4 akhirnya tiba! Model dengan 1,6 triliun parameter, lisensi MIT, memori teks panjang ditekan menjadi sepersepuluh dari V3.2.

ME News berita, 24 April (UTC+8), menurut pemantauan Beating, DeepSeek merilis pratinjau seri V4, lisensi MIT, bobot sudah tersedia di Hugging Face dan ModelScope.

Seri ini mencakup dua model MoE: V4-Pro dengan total parameter 1,6T, aktivasi 49B (490 miliar) per token; V4-Flash dengan total parameter 284B (2840 miliar), aktivasi 13B (130 miliar) per token.

Keduanya mendukung konteks 1M token. Tiga peningkatan arsitektur: mekanisme perhatian campuran (perhatian sparse terkompresi CSA + perhatian terkompresi berat HCA) secara signifikan mengurangi overhead konteks panjang, dengan konteks 1M, FLOPs penalaran token tunggal V4-Pro hanya 27% dari V3.2, cache KV (penggunaan memori untuk menyimpan informasi historis selama penalaran) hanya 10% dari V3.2; koneksi super dengan batasan manifold mHC menggantikan koneksi sisa tradisional, meningkatkan stabilitas transmisi sinyal antar lapisan; pelatihan beralih ke pengoptimal Muon untuk mempercepat konvergensi. Data prapelatihan lebih dari 32T token.

Pelatihan pasca dibagi menjadi dua tahap: pertama menggunakan SFT dan pembelajaran penguatan GRPO untuk melatih pakar di setiap bidang secara terpisah, kemudian menggunakan distilasi online untuk menggabungkan menjadi satu model. V4-Pro-Max (mode kekuatan penalaran tertinggi) mengklaim sebagai model sumber terbuka terkuat saat ini, tolok ukur pengkodean mencapai tingkat tertinggi, kesenjangan dalam penalaran dan tugas agen dengan batas tertutup menyusut secara signifikan. V4-Flash-Max setelah memberikan anggaran berpikir yang cukup, kinerja penalarannya mendekati Pro, tetapi terbatas oleh skala parameter pada pengetahuan murni dan tugas agen yang kompleks. Bobot disimpan dengan presisi campuran FP4+FP8.

(Sumber: BlockBeats)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan