Baru saja, DeepSeek V4 memperbarui DSpark, kecepatan inferensi meningkat 80%.

robot
Pembuatan abstrak sedang berlangsung

Baru saja, DeepSeek V4 melakukan pembaruan.

Meluncurkan kerangka kerja Decoding Spekulatif (Speculative Decoding) yang baru, DSpark, dan secara bersamaan membuka sumber penuh kerangka kerja decoding spekulatif full-stack yang mendukung versi ini, DeepSpec.

DeepSeek-V4-Pro-DSpark bukanlah model arsitektur yang sepenuhnya baru, melainkan memperkenalkan modul decoding spekulatif berdasarkan DeepSeek-V4-Pro. Fokus pembaruan ini ada pada implementasi teknik, bukan pada iterasi kemampuan model itu sendiri.

DSpark telah diterapkan pada lalu lintas online nyata dari DeepSeek-V4 (Flash dan Pro), secara signifikan mempercepat kecepatan inferensi Large Language Model (LLM).

  • Laporan Teknis: 《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》

  • Tautan Laporan Teknis: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

Tujuan inti awal DSpark adalah untuk mengatasi hambatan latensi dan throughput yang dihadapi inferensi LLM di lingkungan produksi (terutama dalam skenario konkurensi tinggi). Singkatnya, DSpark berhasil menggabungkan "generasi paralel" dengan throughput tinggi dan "verifikasi sadar beban" yang adaptif.

Speculative decoding adalah teknik untuk mempercepat inferensi LLM tanpa mengubah distribusi keluaran model. Inti pemikirannya adalah memperkenalkan "model draf" yang ringan untuk menghasilkan beberapa token kandidat terlebih dahulu, kemudian model target memverifikasi dan menerima kandidat tersebut secara batch, sehingga mengubah pembuatan token serial satu per satu menjadi verifikasi batch paralel, secara signifikan mengurangi latensi ujung ke ujung.

Atas dasar ini, inovasi DSpark terletak pada pengenalan arsitektur generasi semi-autoregresif (Semi-Autoregressive Generation): arsitektur ini mempertahankan keunggulan throughput tinggi dari model draf paralel, sambil menambahkan modul serial ringan untuk memodelkan ketergantungan antar token dalam blok, guna mengurangi masalah penurunan tingkat penerimaan yang rentan terjadi pada model draf paralel di posisi selanjutnya.

Selain itu, terdapat verifikasi penjadwalan kepercayaan sadar perangkat keras (Confidence-Scheduled Verification): Decoding spekulatif sebelumnya biasanya secara membabi buta mengirimkan semua token draf yang dihasilkan untuk verifikasi. Ketika sistem dalam beban tinggi, token ekor yang kemungkinan besar akan ditolak ini secara serius akan menyia-nyiakan daya komputasi batch yang berharga. DSpark memperkenalkan Confidence Head untuk mengevaluasi probabilitas kelangsungan hidup setiap token. Dikombinasikan dengan penjadwal prefiks sadar perangkat keras, sistem dapat secara dinamis menyesuaikan panjang verifikasi optimal untuk setiap permintaan berdasarkan karakteristik throughput mesin secara real-time, hanya mengalokasikan daya komputasi ke token dengan pengembalian tertinggi yang diharapkan.

Untuk diterapkan di infrastruktur online nyata, penjadwal DSpark menggunakan mekanisme asinkron untuk mengakomodasi penjadwalan nol overhead (ZOS) dan pemutaran ulang grafik CUDA yang berkelanjutan. Ini menggunakan prediksi historis dari dua langkah sebelumnya untuk menentukan panjang pemotongan dinamis saat ini, sehingga menyembunyikan latensi penjadwalan, menghindari penghentian pipeline GPU, sambil memastikan pemulihan distribusi keluaran model target yang sepenuhnya tanpa kerugian.

Dalam pengujian yang mencakup berbagai bidang seperti penalaran matematika, pembuatan kode, dan percakapan sehari-hari, DSpark secara signifikan melampaui model autoregresif tercanggih saat ini (Eagle3) dan model draf paralel (DFlash). Misalnya, pada model target seri Qwen3 (4B, 8B, 14B), panjang penerimaan rata-ratanya meningkat 26,7% hingga 30,9% dibandingkan Eagle3, dan 16,3% hingga 18,4% dibandingkan DFlash.

Dibandingkan dengan baseline produksi single-token sebelumnya (MTP-1), sambil mempertahankan total throughput yang sama, DSpark meningkatkan kecepatan generasi pengguna masing-masing sebesar 60%-85% (model Flash) dan 57%-78% (model Pro).

Bersamaan dengan DSpark, DeepSpec juga dirilis sebagai sumber terbuka, sebuah basis kode full-stack untuk melatih dan mengevaluasi model draf decoding spekulatif. Ini adalah "infrastruktur sumber terbuka" yang mewujudkan solusi ini dan implementasi algoritma mutakhir lainnya, berisi alat persiapan data, implementasi model draf, kode pelatihan, dan skrip evaluasi.

DeepSpec membagi seluruh proses menjadi tiga fase: persiapan data, pelatihan, dan evaluasi. Ketiga fase perlu dijalankan secara berurutan, dengan output dari fase sebelumnya menjadi input untuk fase berikutnya.

Pada fase persiapan data, perlu mengunduh data prompt, menggunakan mesin inferensi untuk menghasilkan ulang jawaban pada model target, dan membangun cache target. Perlu dicatat, dengan konfigurasi default Qwen/Qwen3-4B, ukuran cache target bisa mencapai sekitar 38 TB, oleh karena itu perlu mengevaluasi sumber daya penyimpanan secara memadai sebelum digunakan.

Fase pelatihan dapat dimulai melalui bash scripts/train/train.sh. Skrip ini akan memanggil train.py dan memulai satu worker untuk setiap GPU yang terlihat. Pengguna dapat memilih konfigurasi algoritma dan model target yang berbeda di direktori config/ dengan menentukan config_path. Proyek juga mendukung penyesuaian pengaturan pelatihan dengan menimpa config_path, target_cache_dir, dan menggunakan --opts untuk mengubah bidang konfigurasi tunggal.

Dalam hal perangkat keras, konfigurasi dan skrip default DeepSpec dirancang untuk lingkungan 8 GPU pada satu node. Jika jumlah GPU lebih sedikit, pengguna perlu mengurangi jumlah GPU yang terlihat di CUDA_VISIBLE_DEVICES.

Fase evaluasi dimulai melalui bash scripts/eval/eval.sh. Skrip evaluasi akan menggunakan checkpoint model draf yang telah dilatih untuk mengukur penerimaan pada beberapa tugas benchmark speculative decoding. Dataset evaluasi yang saat ini tercantum dalam proyek meliputi GSM8K, MATH500, AIME25, HumanEval, MBPP, LiveCodeBench, MT-Bench, Alpaca, dan Arena-Hard-v2, mencakup berbagai jenis tugas seperti penalaran matematika, pembuatan kode, kemampuan percakapan, dan tanya jawab komprehensif.

Dalam hal algoritma, DeepSpec saat ini memiliki tiga model draf bawaan: DSpark, DFlash, dan Eagle3. Untuk seri model target, proyek saat ini mendukung Qwen3 dan Gemma.

Sumber terbuka DeepSpec mengintegrasikan praktik rekayasa decoding spekulatif, yang sebelumnya sebagian besar tersebar di dalam tim penelitian, menjadi seperangkat alat standar yang dapat direproduksi dan diperluas. Bagi peneliti dan insinyur yang ingin mempercepat inferensi model besar mereka sendiri, ini berarti mereka dapat langsung melatih model draf yang disesuaikan pada kerangka kerja yang matang, melewati banyak pekerjaan pembangunan infrastruktur yang berulang.

Sumber artikel: Jiqizhixin

Peringatan Risiko dan Penafian

        Pasar itu berisiko, investasi harus hati-hati. Artikel ini bukan merupakan saran investasi pribadi, dan juga tidak mempertimbangkan tujuan investasi, situasi keuangan, atau kebutuhan khusus pengguna. Pengguna harus mempertimbangkan apakah setiap pendapat, pandangan, atau kesimpulan dalam artikel ini sesuai dengan situasi spesifik mereka. Investasi berdasarkan ini adalah tanggung jawab sendiri.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar