Perplexity mempublikasikan metode pelatihan agen pencarian, model berbasis Qwen3.5 melampaui GPT-5.4 dalam akurasi dan biaya.

robot
Pembuatan abstrak sedang berlangsung
Berita ME News, 23 April (UTC+8), menurut pemantauan oleh Beating, tim riset Perplexity menerbitkan artikel teknis yang mengungkapkan proses pasca-pelatihan dari agen pencarian web mereka.
Proses ini didasarkan pada model sumber terbuka Qwen3.5-122B-A10B dan Qwen3.5-397B-A17B, menggunakan skema dua tahap: pertama menggunakan fine-tuning terawasi (SFT) untuk membangun kepatuhan instruksi, konsistensi bahasa, dan perilaku lain yang diperlukan untuk penerapan, kemudian menggunakan penguatan pembelajaran kebijakan online (RL) untuk mengoptimalkan akurasi pencarian dan efisiensi penggunaan alat.
Tahap RL menggunakan algoritma GRPO, data pelatihan terdiri dari dua bagian: pertama, dataset tanya jawab multi-hop yang dapat diverifikasi yang disintesis sendiri, dimulai dari kueri benih internal, melalui rantai entitas untuk membangun pertanyaan yang membutuhkan penalaran 2 hingga 4 hop, dan diverifikasi keunikan jawaban oleh beberapa solver independen; kedua, data dialog umum berdasarkan rubrik penilaian, yang mengubah persyaratan penerapan seperti kepatuhan instruksi, batasan format menjadi kondisi atomik yang dapat diperiksa secara objektif, digunakan untuk mencegah degradasi perilaku yang dibangun oleh SFT selama tahap RL.
Inti dari desain hadiah adalah agregasi terkontrol: hanya ketika baseline benar (jawaban tanya jawab benar atau semua kriteria penilaian terpenuhi), skor preferensi berpartisipasi dalam kalkulasi, mencegah sinyal preferensi tinggi menutupi kesalahan faktual. Hukuman efisiensi menggunakan metode jangkar dalam grup, dengan dasar jawaban yang benar dalam grup yang sama, memberikan penalti halus untuk jumlah panggilan alat dan panjang generasi yang berlebihan.
Evaluasi menunjukkan bahwa Qwen3.5-397B-SFT-RL yang telah dilatih pasca-pelatihan menunjukkan kinerja terbaik di beberapa tolok ukur pencarian. Pada FRAMES, dengan satu panggilan alat mencapai 57,3%, 5,7 poin persentase lebih tinggi dari GPT-5.4, dan 4,7 poin persentase lebih tinggi dari Sonnet 4.6. Dengan anggaran sedang (4 panggilan alat) mencapai 73,9%, biaya per kueri 2,0 sen; dalam kondisi yang sama GPT-5.4 adalah 67,8% / 8,5 sen, Sonnet 4.6 adalah 62,4% / 15,3 sen. Data biaya dihitung berdasarkan harga API publik masing-masing vendor, tidak termasuk optimalisasi cache.
(Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar