Tidak Ada Lagi Pelatihan Offline untuk Model Draft: Together AI Membuka Sumber Aurora untuk Dekoding Spekulatif dengan Pembelajaran Mandiri

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan oleh 1M AI News, platform cloud AI Together AI telah merilis kode sumber Aurora, sebuah kerangka adaptif untuk speculative decoding berdasarkan reinforcement learning. Speculative decoding adalah metode arus utama untuk mempercepat inferensi model besar: metode ini memprediksi urutan token dengan cepat menggunakan sebuah “draft model” yang kecil, lalu token-token tersebut diverifikasi secara paralel oleh model yang lebih besar, dengan menerima hits secara langsung dan membuang misses untuk evaluasi ulang. Masalahnya terletak pada kenyataan bahwa draft model adalah produk statis yang dilatih secara offline; setelah lalu lintas produksi bergeser (karena pembaruan model, perubahan demografi pengguna, atau pergantian jenis tugas), akurasi prediksi terus menurun, dan pelatihan ulang offline itu mahal serta tertunda. Aurora mendefinisikan ulang speculative decoding sebagai masalah reinforcement learning: draft model berperan sebagai policy, verifier dari model besar bertindak sebagai environment, token yang diterima menjadi positive rewards, dan token yang ditolak menjadi umpan balik negatif. Sistem ini terdiri dari dua komponen yang dipisahkan: inference server, yang memproses permintaan secara normal dan men-stream hasil verifikasi ke dalam buffer, serta training server, yang secara asinkron menarik data untuk memperbarui bobot draft model dan menggantinya secara hot ke sisi inference tanpa mengganggu layanan. Dalam uji simulasi lalu lintas yang melibatkan 40.000 permintaan di lima domain (penalaran matematis, Text-to-SQL, pembuatan kode, keuangan, dan dialog umum), Aurora memulihkan acceptance length dalam sekitar 10.000 permintaan setelah pergeseran domain lalu lintas, mencapai peningkatan kecepatan 1,25 kali dibanding draft model statis yang terlatih dengan baik. Yang patut diperhatikan, Aurora yang melatih online dari nol mencapai acceptance length sebesar 3,08, melampaui baseline statis 2,63 dan baseline “pre-trained lalu fine-tuned” sebesar 2,99, dengan throughput yang menstabil pada 302,3 token per detik, secara langsung menantang gagasan yang ada bahwa “speculative decoding harus bergantung pada pre-training offline berskala besar”. Pada uji end-to-end, speculative decoding memberikan peningkatan kecepatan 1,92 kali pada Qwen3-Coder-Next (FP8) dengan batch size 1, dan 1,63 kali pada MiniMax M2.5 (FP8). Pendahulu Aurora, ATLAS, meletakkan dasar untuk adaptive speculator, dan pembaruan ini menghasilkan sistem closed-loop yang sepenuhnya otonom. Kode telah dirilis open-source di GitHub.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan