Teknologi baru DeepSeek移植ke chip Apple! Model besar lokal Mac dipercepat 60%.

robot
Pembuatan abstrak sedang berlangsung

DSpark baru saja open source seminggu, langsung dipindahin ke Mac.

Versi portingnya bernama mlx-dspark, menjalankan model Gemma-4 12B dan Qwen3-4B.

Setelah dipasang, kecepatan generasi kedua model di Mac masing-masing meningkat 1,6 kali dan 1,4 kali.

Yang lebih sulit, ia berhasil melakukan satu hal yang kebanyakan versi porting tidak bisa — outputnya identik byte-per-byte dengan model asli, tidak ada satu kata pun yang berbeda.

Artinya, kecepatan meningkat, kualitas tidak berkurang sama sekali.

Yang mengerjakannya adalah Abdur Rahim, seorang engineer yang mengerjakan proyek open source di waktu luangnya, dan versi Mac asli pertama sejak DSpark open source, semuanya dikerjakan sendiri olehnya.

Menjalankan model besar di Mac, kecepatan naik 60%

Untuk DSpark yang di-open source oleh DeepSeek pada 27 Juni, angka resmi yang diberikan adalah peningkatan kecepatan 60% hingga 85% di skenario server.

Namun, teknologi ini saat itu hanya memiliki implementasi di GPU pusat data, belum ada versi yang diadaptasi untuk chip Apple.

mlx-dspark adalah versi asli pertama dari teknologi ini untuk chip Apple.

Pendekatan DSpark adalah menggunakan model yang lebih kecil untuk membantu model target. Model kecil terlebih dahulu menghasilkan beberapa kandidat kata sekaligus, lalu model target memeriksanya sekaligus. Kata yang benar diterima, yang salah dikembalikan untuk ditebak ulang.

Biaya langkah ini berbeda antara pusat data dan Mac.

Di GPU pusat data, memeriksa sekelompok kandidat kata lebih mirip sewa mobil — berapa pun penumpangnya, harganya tetap. Dekoding sudah menjadi bottleneck memori, memeriksa lebih banyak kata hampir tidak memakan waktu tambahan.

Chip Apple lebih mirip taksi yang menggunakan argo. Semakin banyak kandidat yang diperiksa, semakin tinggi biayanya.

Rahim mengukur secara langsung, untuk Gemma-4 12B, setiap kali memeriksa satu token tambahan, butuh sekitar 14 milidetik. Dia menghitung biaya ini menjadi model biaya, dan menyimpulkan bahwa batas atas kecepatan di chip Apple sekitar 2,2 kali lipat.

Singkatnya, Rahim memindahkan model kecil pembantu ini dari checkpoint HuggingFace, dan menggabungkannya dengan model target Gemma-4 12B dan Qwen3-4B.

Dia juga membangun ulang proses pemeriksaan dalam kerangka MLX, dengan kuantisasi bobot menjadi 4-bit.

Hasilnya, di M4 Pro, dibandingkan dengan alat MLX resmi dari Apple, kecepatan generasi Gemma-4 12B naik dari 18,4 tok/s menjadi sekitar 30 tok/s, sekitar 1,6 kali lipat; Qwen3-4B naik dari 52,9 tok/s menjadi sekitar 73 tok/s, sekitar 1,4 kali lipat.

Selain itu, dalam mlx-dspark, Rahim juga melakukan sesuatu yang kebanyakan pekerjaan porting tidak lakukan.

Versi porting juga bisa mereproduksi dengan presisi tinggi

Kebanyakan versi yang memindahkan model besar ke perangkat hanya mendukung greedy decoding, yaitu memilih kata dengan probabilitas tertinggi setiap langkah.

Rahim dalam mlx-dspark, juga mengimplementasikan metode sampling suhu yang aslinya dijelaskan dalam makalah DSpark. Model draf memberikan kandidat kata, probabilitas penerimaan adalah min(1, p/q), dan bagian yang tidak lolos di-resampling dari residu.

Dia sendiri memeriksa, bahwa output dari proses ini ketat sama dengan distribusi pasti yang akan diberikan model target pada suhu yang sama, bukan versi perkiraan yang dikurangi.

Kebanyakan speculative decoding hanya mengerjakan versi greedy, karena memverifikasi kebenaran mode greedy itu sederhana, cukup dibandingkan kata per kata.

Langkah tambahan yang dilakukan Rahim adalah memeriksa distribusi output yang dihasilkan dalam mode sampling, memastikan tidak ada distorsi.

Model target yang bertanggung jawab untuk pemeriksaan harus menggunakan presisi apa, adalah jebakan yang dia temukan sendiri.

Jika model kecil dipasangkan dengan model target dasar yang belum di-fine-tune instruksi, hanya 47% kandidat yang lolos pemeriksaan; jika diganti dengan versi yang sudah di-fine-tune instruksi, persentasenya naik menjadi 82%.

Dia juga menguji mengganti model target ke presisi bf16, biaya pemeriksaan naik lebih besar daripada kenaikan tingkat lolos, malah lebih lambat, jadi default model target di 8-bit adalah yang paling menguntungkan.

Model kecil yang bertugas menghasilkan kandidat kata, menggunakan presisi yang berbeda.

Model draf sendiri dikompresi, setelah kuantisasi 4-bit hanya 1,8 GB, muat di memori tanpa tekanan, dan tetap lossless.

Hasilnya, DSpark tidak hanya mempercepat, tetapi juga mereproduksi peningkatan tingkat penerimaan 16% hingga 18% yang disebutkan dalam makalah, di sisi perangkat.

DFlash juga diintegrasikan, tugas kode jadi lebih cepat

Setelah tweet diposting, ada komentar dari Jian Chen, salah satu penulis makalah DFlash, bertanya apakah bisa mencoba model tim mereka.

DFlash adalah skema speculative decoding lain yang diusulkan dalam makalah yang dirilis oleh z-lab pada Mei tahun ini, dipimpin oleh Zhijian Liu, asisten profesor UCSD, dan juga peneliti sains di NVIDIA.

Pendekatan DFlash agak berbeda dengan DSpark. Ia menggunakan "block diffusion" paralel untuk melakukan denoising pada satu blok 16 token sekaligus, bukan dengan menebak langkah demi langkah dengan dependensi seperti DSpark.

Rahim segera bertindak.

Menggunakan skrip porting yang ditulis Jian sendiri, dia menghubungkan gemma4-12B-it-DFlash yang dirilis z-lab ke model target Gemma-4 mlx-vlm, di Mac yang sama, dan menjalankan perbandingan head-to-head dengan DSpark yang baru saja dia uji.

Untuk tugas kode dan matematika, panjang penerimaan decoding blok penuh DFlash bisa mencapai 5,95 hingga 6,20, kecepatan sekitar 36 tok/s, sekitar 2,1 kali lipat, mengalahkan DSpark.

Namun, DFlash harus melontarkan satu blok penuh 16 token sekaligus, tetapi model target mungkin tidak menyetujui semuanya, hanya sebagian yang benar-benar lolos pemeriksaan. Ini disebut "acceptance length" di industri, tidak selalu bisa mengisi 16 penuh.

Jadi, di skenario obrolan terbuka yang kontennya sulit diprediksi, acceptance length tidak naik, blok tidak terisi penuh, keunggulan DFlash tidak bisa dimanfaatkan.

Head Markov DSpark justru ada untuk mengatasi masalah yang sama. Melontarkan satu blok kata secara paralel, posisi yang lebih belakang dihitung secara independen, mudah tidak cocok satu sama lain. Head Markov menambahkan lapisan dependensi antara posisi-posisi ini, khusus untuk memperbaiki masalah ini.

Hasilnya, dalam skenario obrolan, DSpark justru lebih cepat daripada DFlash.

Kemudian pembaruan mlx-dspark v0.0.3 secara resmi mengintegrasikan DFlash asli dari z-lab ke dalam paket, dan menambahkan parameter untuk mempersingkat panjang blok efektif DFlash secara manual. Untuk obrolan gunakan blok pendek, untuk kode dan matematika tetap gunakan blok penuh 16.

Setelah itu, di Mac yang sama, paket yang sama bisa menyelesaikan tugas obrolan, kode, dan matematika sekaligus, tanpa perlu bolak-balik antara proyek DSpark dan DFlash.

Rahim dalam tweetnya mengatakan, metode yang sama seharusnya bisa berjalan untuk model draf Qwen3-8B dan 14B yang lebih besar.

Sumber: Qubit

Peringatan Risiko dan Ketentuan

        Pasar memiliki risiko, investasi harus hati-hati. Artikel ini bukan merupakan saran investasi pribadi, dan tidak mempertimbangkan tujuan investasi, situasi keuangan, atau kebutuhan khusus masing-masing pengguna. Pengguna harus mempertimbangkan apakah pendapat, pandangan, atau kesimpulan apa pun dalam artikel ini sesuai dengan situasi spesifik mereka. Investasi berdasarkan ini adalah tanggung jawab sendiri.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan