Metode pelatihan setelah pencarian agen terbuka Perplexity, berdasarkan model Qwen3.5 mengungguli GPT-5.4 dari segi akurasi dan biaya

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating Monitoring, tim penelitian Perplexity menerbitkan artikel teknis yang memaparkan proses pelatihan ulang agen pencarian web mereka. Proses ini didasarkan pada model sumber terbuka Qwen3.5-122B-A10B dan Qwen3.5-397B-A17B, menggunakan skema dua tahap: pertama melakukan penyetelan halus pengawasan (SFT) untuk membangun perilaku wajib seperti mengikuti instruksi dan konsistensi bahasa, kemudian menggunakan pembelajaran penguatan strategi daring (RL) untuk mengoptimalkan akurasi pencarian dan efisiensi penggunaan alat.

Tahap RL menggunakan algoritma GRPO, dengan data pelatihan terdiri dari dua bagian: pertama, dataset tanya jawab verifikasi multi-langkah sintetis yang dikembangkan sendiri, dimulai dari query benih internal, membangun pertanyaan yang memerlukan inferensi 2 hingga 4 langkah melalui rantai entitas, dan diverifikasi keunikannya oleh beberapa solver independen; kedua, data dialog umum berbasis standar penilaian (rubric), mengubah persyaratan deployment seperti mengikuti instruksi dan batasan format menjadi kondisi atom yang dapat diperiksa secara objektif, digunakan selama tahap RL untuk mencegah degradasi perilaku yang dibangun melalui SFT.

Inti dari desain hadiah adalah penggabungan terkendali: hanya ketika baseline benar (pertanyaan dan jawaban atau semua standar penilaian terpenuhi), skor preferensi akan ikut dihitung, mencegah sinyal preferensi tinggi menutupi kesalahan faktual. Penalti efisiensi menggunakan metode penetapan jangkar dalam grup, dengan jawaban benar dalam grup sebagai patokan, memberikan penalti halus terhadap jumlah panggilan alat dan panjang keluaran yang berlebihan.

Pengujian menunjukkan bahwa Qwen3.5-397B-SFT-RL pasca pelatihan menunjukkan performa terbaik di berbagai tolok ukur pencarian. Di FRAMES, panggilan alat tunggal mencapai 57,3%, lebih tinggi 5,7 poin persen dari GPT-5.4 dan 4,7 poin persen dari Sonnet 4.6. Dengan anggaran sedang (4 panggilan alat), mencapai 73,9%, dengan biaya per query sebesar 2,0 sen dolar AS; dalam kondisi yang sama, GPT-5.4 mencapai 67,8% / 8,5 sen dolar, dan Sonnet 4.6 mencapai 62,4% / 15,3 sen dolar. Data biaya dihitung berdasarkan harga API yang diumumkan masing-masing vendor, belum termasuk optimisasi cache.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan