DeepSeek mengumumkan kerangka kerja percepatan inferensi open-source DeepSpec, dan meluncurkan DSpark yang meningkatkan kecepatan model V4 hingga 85%.

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating, DeepSeek bersama Universitas Peking merilis laporan teknis tentang kerangka percepatan sampling spekulatif DSpark, dan membuka sumber kode penuh DeepSpec. Saat ini DSpark telah digunakan dalam layanan online DeepSeek-V4. Dengan jaminan output tanpa kerugian, DSpark meningkatkan kecepatan generasi pengguna tunggal versi Flash sebesar 60% hingga 85%, dan versi Pro sebesar 57% hingga 78%. Kinerja DSpark melampaui baseline prediksi multi-cabang Token tunggal (MTP-1) sebelumnya, secara signifikan meningkatkan throughput sistem secara keseluruhan di bawah batasan latensi yang ketat.

Sebelumnya, sampling spekulatif multi-Token sulit diimplementasikan dalam lingkungan produksi online. Model draf autoregresif menghasilkan terlalu lambat, sementara model draf paralel karena prediksi independen di setiap posisi menyebabkan tingkat penerimaan pada bagian akhir dari urutan panjang sangat rendah. Jika verifikasi buta terhadap draf multi-Token dilakukan di bawah konkurensi tinggi, model besar akan membuang banyak daya komputasi untuk memverifikasi karakter yang pasti ditolak, menyebabkan penurunan drastis throughput sistem secara keseluruhan, sehingga industri umumnya terbatas pada prediksi Token tunggal (MTP-1) secara online.

DSpark mengatasi hambatan penurunan throughput di bawah konkurensi tinggi. DSpark pertama-tama menggunakan jaringan backbone paralel DFlash untuk menghasilkan status tersembunyi, kemudian menambahkan kepala Markov yang sangat ringan. Kepala Markov menyuntikkan hubungan kata-kata berurutan secara serial dengan biaya yang sangat rendah melalui pencarian tabel dan satu perkalian matriks. Pada saat yang sama, sistem mengintegrasikan kepala prediksi kepercayaan dan algoritma kalibrasi posterior. Untuk kompatibilitas sempurna dengan penjadwalan tanpa biaya dalam lingkungan produksi dan mencegah kebocoran informasi masa depan, penjadwal menggunakan mekanisme asinkron, memanfaatkan prediksi historis dua langkah sebelumnya untuk secara dinamis menentukan panjang pemangkasan kandidat kata, sepenuhnya mencegah model besar memverifikasi karakter ekor berisiko tinggi di bawah beban berat.

Selain DSpark, kode sumber DeepSpec yang dirilis DeepSeek kali ini mendukung model besar sumber terbuka seperti Qwen3 dan Gemma. DeepSpec menyediakan rantai alat Python lengkap mulai dari mengunduh prompt, membangun ulang cache model besar, melatih model draf, hingga evaluasi tolok ukur. Pengembang dapat langsung menggunakan skrip sumber terbuka untuk menyesuaikan dan menerapkan modul akselerasi khusus untuk model besar sumber terbuka yang berbeda di lokal.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar