DeepSeek model sumber terbuka V4, skala parameter mencapai 1,6 triliun

robot
Pembuatan abstrak sedang berlangsung

Odaily Planet Daily melaporkan bahwa DeepSeek merilis pratinjau model sumber terbuka seri V4, menggunakan lisensi MIT, bobotnya sudah tersedia di Hugging Face dan ModelScope.

Seri ini mencakup dua model MoE, di mana V4-Pro memiliki sekitar 1,6 triliun parameter total, 49 miliar parameter aktif per token, dan V4-Flash memiliki total 284 miliar parameter, 13 miliar parameter aktif, keduanya mendukung konteks sekitar 1 juta token. Pihak resmi menyatakan bahwa dibandingkan dengan versi V3.2, penggunaan memori GPU dan beban komputasi dalam inferensi teks panjang secara signifikan berkurang.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan