📰 【Model sumber terbuka terkuat DeepSeek V4 akhirnya hadir! Model dengan 16 triliun parameter, lisensi MIT, kompresi memori untuk teks panjang hingga sepersepuluh dari V3.2】


Menurut pemantauan Beating, versi pratinjau seri DeepSeek sumber terbuka V4, menggunakan lisensi MIT, bobot sudah tersedia di Hugging Face dan ModelScope. Seri ini mencakup dua model MoE: V4-Pro dengan total parameter 1,6T, aktivasi per token 49B (4,9 miliar); V4-Flash dengan total parameter 284B (2,84 triliun), aktivasi 13B (1,3 miliar). Keduanya mendukung konteks 1 juta token. Ada tiga peningkatan arsitektur: mekanisme perhatian campuran (kompresi perhatian jarang CSA + perhatian kompresi berat HCA) secara signifikan mengurangi biaya konteks panjang, di konteks 1 juta V4...

Saudara-saudara, DeepSeek kembali membuat gebrakan besar, model sumber terbuka V4 langsung 16 triliun parameter, lisensi MIT, memori teks panjang dikompresi hingga sepersepuluh dari V3.2. Bro ini benar-benar berani, menyebarkan model besar seperti menjual sayur, para trader AI cepat naik kendaraan, jangan sampai ketinggalan seperti saat melewatkan raja koin dulu, kali ini jangan lewatkan gelombang keuntungan teknologi ini.👇👇👇👇👇
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan