Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Pre-IPOs
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Yifan Zhang Mengungkapkan Spesifikasi Teknis Lengkap DeepSeek V4: 1,6T Parameter, 384 Ahli dengan 6 Aktif
Menurut pemantauan oleh Dongcha Beating, mahasiswa PhD Princeton Yifan Zhang memperbarui rincian teknis DeepSeek V4 di X. Dia menampilkan pratinjau ‘V4 minggu depan’ pada 19 April dan mencantumkan tiga nama komponen arsitektur, serta menyediakan tabel parameter lengkap malam ini, sekaligus mengungkapkan untuk pertama kalinya keberadaan versi ringan, V4-Lite, dengan 285B parameter. Total parameter untuk V4 adalah 1,6T. Mekanisme perhatian adalah DSA2, yang menggabungkan dua skema perhatian jarang: DSA (DeepSeek Sparse Attention) yang digunakan dalam V3.2 dan NSA (Native Sparse Attention) yang diusulkan dalam sebuah makalah awal tahun ini. Dimensi kepala adalah 512, dipasangkan dengan Sparse MQA dan SWA (Sliding Window Attention). Lapisan MoE memiliki total 384 ahli, dengan 6 diaktifkan sekaligus, menggunakan Fused MoE Mega-Kernel. Koneksi residual mengikuti Hyper-Connections. Rincian yang diungkapkan untuk fase pelatihan meliputi: optimizer yang digunakan adalah Muon (sebuah optimizer tingkat matriks yang menerapkan orthogonalization Newton-Schulz pada pembaruan momentum), dengan panjang konteks pra-pelatihan 32K, dan fase pembelajaran penguatan menggunakan GRPO dengan koreksi divergensi KL yang ditambahkan. Panjang konteks akhir diperpanjang menjadi 1 juta. Modality-nya adalah teks murni. Zhang tidak memegang posisi di DeepSeek, dan DeepSeek belum menanggapi informasi di atas.