Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
CFD
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
CFD
Derivatif CFD Saham AS
Saham AS
Akses saham AS dan ETF yang nyata
Saham HK
Perdagangkan saham berkualitas yang terdaftar di Hong Kong
Saham Korea
SK Hynix
Perdagangkan Saham Korea Nyata dan Berinvestasi pada Aset Populer
Saham Futures
Leverage tinggi, perdagangan 24/7
Tokenized Stocks
Didukung oleh aset saham nyata
IPO Access
Buka akses penuh ke IPO saham global
GUSD
Mint GUSD untuk Imbal Hasil Treasury RWA
Aktivitas Saham
Perdagangkan Saham Populer dan Dapatkan Airdrop yang Melimpah
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
IPO Access
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Promosi
AI
Gate AI
Partner AI serbaguna untuk Anda
Gate AI Bot
Gunakan Gate AI langsung di aplikasi sosial Anda
GateClaw
Gate Blue Lobster, langsung pakai
Gate for AI Agent
Infrastruktur AI, Gate MCP, Skills, dan CLI
Gate Skills Hub
10RB+ Skills
Dari kantor hingga trading, satu platform keterampilan membuat AI jadi lebih mudah digunakan
Baru saja, DeepSeek V4 memperbarui DSpark, kecepatan inferensi meningkat 80%.
Baru saja, DeepSeek V4 melakukan pembaruan.
Meluncurkan kerangka kerja Decoding Spekulatif (Speculative Decoding) yang baru, DSpark, dan secara bersamaan membuka sumber penuh kerangka kerja decoding spekulatif full-stack yang mendukung versi ini, DeepSpec.
DeepSeek-V4-Pro-DSpark bukanlah model arsitektur yang sepenuhnya baru, melainkan memperkenalkan modul decoding spekulatif berdasarkan DeepSeek-V4-Pro. Fokus pembaruan ini ada pada implementasi teknik, bukan pada iterasi kemampuan model itu sendiri.
DSpark telah diterapkan pada lalu lintas online nyata dari DeepSeek-V4 (Flash dan Pro), secara signifikan mempercepat kecepatan inferensi Large Language Model (LLM).
Laporan Teknis: 《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》
Tautan Laporan Teknis: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf
Tujuan inti awal DSpark adalah untuk mengatasi hambatan latensi dan throughput yang dihadapi inferensi LLM di lingkungan produksi (terutama dalam skenario konkurensi tinggi). Singkatnya, DSpark berhasil menggabungkan "generasi paralel" dengan throughput tinggi dan "verifikasi sadar beban" yang adaptif.
Speculative decoding adalah teknik untuk mempercepat inferensi LLM tanpa mengubah distribusi keluaran model. Inti pemikirannya adalah memperkenalkan "model draf" yang ringan untuk menghasilkan beberapa token kandidat terlebih dahulu, kemudian model target memverifikasi dan menerima kandidat tersebut secara batch, sehingga mengubah pembuatan token serial satu per satu menjadi verifikasi batch paralel, secara signifikan mengurangi latensi ujung ke ujung.
Atas dasar ini, inovasi DSpark terletak pada pengenalan arsitektur generasi semi-autoregresif (Semi-Autoregressive Generation): arsitektur ini mempertahankan keunggulan throughput tinggi dari model draf paralel, sambil menambahkan modul serial ringan untuk memodelkan ketergantungan antar token dalam blok, guna mengurangi masalah penurunan tingkat penerimaan yang rentan terjadi pada model draf paralel di posisi selanjutnya.
Selain itu, terdapat verifikasi penjadwalan kepercayaan sadar perangkat keras (Confidence-Scheduled Verification): Decoding spekulatif sebelumnya biasanya secara membabi buta mengirimkan semua token draf yang dihasilkan untuk verifikasi. Ketika sistem dalam beban tinggi, token ekor yang kemungkinan besar akan ditolak ini secara serius akan menyia-nyiakan daya komputasi batch yang berharga. DSpark memperkenalkan Confidence Head untuk mengevaluasi probabilitas kelangsungan hidup setiap token. Dikombinasikan dengan penjadwal prefiks sadar perangkat keras, sistem dapat secara dinamis menyesuaikan panjang verifikasi optimal untuk setiap permintaan berdasarkan karakteristik throughput mesin secara real-time, hanya mengalokasikan daya komputasi ke token dengan pengembalian tertinggi yang diharapkan.
Untuk diterapkan di infrastruktur online nyata, penjadwal DSpark menggunakan mekanisme asinkron untuk mengakomodasi penjadwalan nol overhead (ZOS) dan pemutaran ulang grafik CUDA yang berkelanjutan. Ini menggunakan prediksi historis dari dua langkah sebelumnya untuk menentukan panjang pemotongan dinamis saat ini, sehingga menyembunyikan latensi penjadwalan, menghindari penghentian pipeline GPU, sambil memastikan pemulihan distribusi keluaran model target yang sepenuhnya tanpa kerugian.
Dalam pengujian yang mencakup berbagai bidang seperti penalaran matematika, pembuatan kode, dan percakapan sehari-hari, DSpark secara signifikan melampaui model autoregresif tercanggih saat ini (Eagle3) dan model draf paralel (DFlash). Misalnya, pada model target seri Qwen3 (4B, 8B, 14B), panjang penerimaan rata-ratanya meningkat 26,7% hingga 30,9% dibandingkan Eagle3, dan 16,3% hingga 18,4% dibandingkan DFlash.
Dibandingkan dengan baseline produksi single-token sebelumnya (MTP-1), sambil mempertahankan total throughput yang sama, DSpark meningkatkan kecepatan generasi pengguna masing-masing sebesar 60%-85% (model Flash) dan 57%-78% (model Pro).
Bersamaan dengan DSpark, DeepSpec juga dirilis sebagai sumber terbuka, sebuah basis kode full-stack untuk melatih dan mengevaluasi model draf decoding spekulatif. Ini adalah "infrastruktur sumber terbuka" yang mewujudkan solusi ini dan implementasi algoritma mutakhir lainnya, berisi alat persiapan data, implementasi model draf, kode pelatihan, dan skrip evaluasi.
DeepSpec membagi seluruh proses menjadi tiga fase: persiapan data, pelatihan, dan evaluasi. Ketiga fase perlu dijalankan secara berurutan, dengan output dari fase sebelumnya menjadi input untuk fase berikutnya.
Pada fase persiapan data, perlu mengunduh data prompt, menggunakan mesin inferensi untuk menghasilkan ulang jawaban pada model target, dan membangun cache target. Perlu dicatat, dengan konfigurasi default Qwen/Qwen3-4B, ukuran cache target bisa mencapai sekitar 38 TB, oleh karena itu perlu mengevaluasi sumber daya penyimpanan secara memadai sebelum digunakan.
Fase pelatihan dapat dimulai melalui bash scripts/train/train.sh. Skrip ini akan memanggil train.py dan memulai satu worker untuk setiap GPU yang terlihat. Pengguna dapat memilih konfigurasi algoritma dan model target yang berbeda di direktori config/ dengan menentukan config_path. Proyek juga mendukung penyesuaian pengaturan pelatihan dengan menimpa config_path, target_cache_dir, dan menggunakan --opts untuk mengubah bidang konfigurasi tunggal.
Dalam hal perangkat keras, konfigurasi dan skrip default DeepSpec dirancang untuk lingkungan 8 GPU pada satu node. Jika jumlah GPU lebih sedikit, pengguna perlu mengurangi jumlah GPU yang terlihat di CUDA_VISIBLE_DEVICES.
Fase evaluasi dimulai melalui bash scripts/eval/eval.sh. Skrip evaluasi akan menggunakan checkpoint model draf yang telah dilatih untuk mengukur penerimaan pada beberapa tugas benchmark speculative decoding. Dataset evaluasi yang saat ini tercantum dalam proyek meliputi GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca, dan Arena-Hard-v2, mencakup berbagai jenis tugas seperti penalaran matematika, pembuatan kode, kemampuan percakapan, dan tanya jawab komprehensif.
Dalam hal algoritma, DeepSpec saat ini memiliki tiga model draf bawaan: DSpark, DFlash, dan Eagle3. Untuk seri model target, proyek saat ini mendukung Qwen3 dan Gemma.
Sumber terbuka DeepSpec mengintegrasikan praktik rekayasa decoding spekulatif, yang sebelumnya sebagian besar tersebar di dalam tim penelitian, menjadi seperangkat alat standar yang dapat direproduksi dan diperluas. Bagi peneliti dan insinyur yang ingin mempercepat inferensi model besar mereka sendiri, ini berarti mereka dapat langsung melatih model draf yang disesuaikan pada kerangka kerja yang matang, melewati banyak pekerjaan pembangunan infrastruktur yang berulang.
Sumber artikel: Jiqizhixin
Peringatan Risiko dan Penafian