Menurut pemantauan Beating, DeepSeek bersama Universitas Peking merilis laporan teknis tentang kerangka percepatan sampling spekulatif DSpark, dan membuka sumber kode penuh DeepSpec. Saat ini DSpark telah digunakan dalam layanan online DeepSeek-V4. Dengan jaminan output tanpa kerugian, DSpark meningkatkan kecepatan generasi pengguna tunggal versi Flash sebesar 60% hingga 85%, dan versi Pro sebesar 57% hingga 78%. Kinerja DSpark melampaui baseline prediksi multi-cabang Token tunggal (MTP-1) sebelumnya, secara signifikan meningkatkan throughput sistem secara keseluruhan di bawah batasan latensi yang ketat.

Sebelumnya, sampling spekulatif multi-Token sulit diimplementasikan dalam lingkungan produksi online. Model draf autoregresif menghasilkan terlalu lambat, sementara model draf paralel karena prediksi independen di setiap posisi menyebabkan tingkat penerimaan pada bagian akhir dari urutan panjang sangat rendah. Jika verifikasi buta terhadap draf multi-Token dilakukan di bawah konkurensi tinggi, model besar akan membuang banyak daya komputasi untuk memverifikasi karakter yang pasti ditolak, menyebabkan penurunan drastis throughput sistem secara keseluruhan, sehingga industri umumnya terbatas pada prediksi Token tunggal (MTP-1) secara online.

DSpark mengatasi hambatan penurunan throughput di bawah konkurensi tinggi. DSpark pertama-tama menggunakan jaringan backbone paralel DFlash untuk menghasilkan status tersembunyi, kemudian menambahkan kepala Markov yang sangat ringan. Kepala Markov menyuntikkan hubungan kata-kata berurutan secara serial dengan biaya yang sangat rendah melalui pencarian tabel dan satu perkalian matriks. Pada saat yang sama, sistem mengintegrasikan kepala prediksi kepercayaan dan algoritma kalibrasi posterior. Untuk kompatibilitas sempurna dengan penjadwalan tanpa biaya dalam lingkungan produksi dan mencegah kebocoran informasi masa depan, penjadwal menggunakan mekanisme asinkron, memanfaatkan prediksi historis dua langkah sebelumnya untuk secara dinamis menentukan panjang pemangkasan kandidat kata, sepenuhnya mencegah model besar memverifikasi karakter ekor berisiko tinggi di bawah beban berat.

Selain DSpark, kode sumber DeepSpec yang dirilis DeepSeek kali ini mendukung model besar sumber terbuka seperti Qwen3 dan Gemma. DeepSpec menyediakan rantai alat Python lengkap mulai dari mengunduh prompt, membangun ulang cache model besar, melatih model draf, hingga evaluasi tolok ukur. Pengembang dapat langsung menggunakan skrip sumber terbuka untuk menyesuaikan dan menerapkan modul akselerasi khusus untuk model besar sumber terbuka yang berbeda di lokal.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
SKHynixTopsKOSPIByMarketCap
1,62M Popularitas
#
MicronEarningsBeatExpectationsSharesRise
475,05K Popularitas
#
IsraelStrikesIranBTCPlunges
64,55K Popularitas
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
361,52K Popularitas
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
593,65K Popularitas

Disematkan

peta situs

DeepSeek mengumumkan kerangka kerja percepatan inferensi open-source DeepSpec, dan meluncurkan DSpark yang meningkatkan kecepatan model V4 hingga 85%.

Topik Trending

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Disematkan