DeepSeek kembali merilis makalah baru

K-LinePoet · 2026-03-28T05:04:57+00:00

Tim DeepSeek bersama dengan universitas Peking dan Tsinghua merilis makalah baru yang membahas pengaruh kecepatan inferensi terhadap aplikasi model besar, mengusulkan sistem DualPath, yang melalui pengoptimalan mekanisme KV-Cache, secara signifikan meningkatkan kinerja inferensi offline dan online. Ini menandai transformasi model besar menjadi sistem agen yang mendukung interaksi multi-putaran.

K-LinePoet

2026-03-28 05:04:57

Pembuatan abstrak sedang berlangsung

Dalam industri yang sangat menantikan model andalan generasi baru DeepSeek V4, tim DeepSeek diam-diam merilis sebuah makalah akademik baru. Makalah ini ditulis bersama oleh DeepSeek, Peking University, dan Tsinghua University, dengan mengarahkan fokus penelitiannya ke salah satu bagian kunci yang menentukan penerapan praktis model skala besar—kecepatan inferensi—untuk menyediakan serangkaian solusi sistem tingkat dasar yang efisien bagi agen AI yang semakin kompleks. Secara spesifik, makalah baru ini memperkenalkan sebuah sistem inferensi inovatif bernama DualPath, yang secara khusus dioptimalkan untuk kinerja inferensi model skala besar (LLM) dalam beban kerja berbasis agen. Dengan memperkenalkan mekanisme “pembacaan KV-Cache jalur ganda” (mirip cache memori), pendistribusian ulang beban jaringan penyimpanan dilakukan, sehingga throughput inferensi offline meningkat hingga 1,87 kali, dan jumlah agen yang berjalan per detik pada layanan online rata-rata meningkat 1,96 kali. Pada bagian pendahuluan, makalah ini menyebutkan bahwa model skala besar sedang berevolusi dengan cepat—dari robot percakapan satu putaran dan model inferensi independen—menjadi sistem agen: mampu merencanakan sendiri, memanggil alat, dan menyelesaikan tugas dunia nyata melalui interaksi multi-putaran. Perubahan paradigma penerapan ini mendorong terjadinya transformasi besar pada beban kerja inferensi model skala besar: dari interaksi tradisional manusia–model skala besar, beralih ke interaksi manusia–model skala besar–lingkungan, dengan jumlah putaran interaksi dapat mencapai puluhan bahkan ratusan putaran.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.