Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Pre-IPOs
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Yifan Zhang mengungkapkan spesifikasi lengkap DeepSeek V4: parameter 1.6T, 384 ahli aktifkan 6
Menurut pemantauan Beating, mahasiswa doktoral Princeton Yifan Zhang memperbarui detail teknologi DeepSeek V4 di X. Dia mengumumkan “V4 minggu depan” pada 19 April dan menyebutkan tiga nama komponen arsitektur, malam ini merilis tabel parameter lengkap, dan untuk pertama kalinya mengungkapkan adanya versi ringan V4-Lite dengan 285 miliar parameter.
Total parameter V4 adalah 1,6 triliun. Mekanisme perhatian menggunakan DSA2, menggabungkan dua skema perhatian jarang yang digunakan sebelumnya di DeepSeek V3.2, yaitu DSA (DeepSeek Sparse Attention) dan NSA (Native Sparse Attention) yang diusulkan dalam makalah awal tahun ini, dengan head-dim 512, dikombinasikan dengan Sparse MQA dan SWA (attention jendela geser). Layer MoE terdiri dari 384 ahli, aktif 6 sekaligus setiap waktu, menggunakan Fused MoE Mega-Kernel. Koneksi residual menggunakan Hyper-Connections.
Rincian yang pertama kali diungkapkan selama pelatihan meliputi: optimizer menggunakan Muon (sebuah optimizer matriks yang menerapkan Newton-Schulz orthogonalization untuk pembaruan momentum), panjang konteks pra-pelatihan 32K, fase pembelajaran penguatan menggunakan GRPO dan penyesuaian KL divergence. Panjang konteks akhir diperluas menjadi 1 juta. Modalitasnya adalah teks murni.
Zhang tidak menjabat di DeepSeek, dan pihak resmi DeepSeek belum menanggapi informasi tersebut.