Mengalahkan proses pelatihan ulang agen pencarian web publikasi mereka, berbasis Qwen3.5-122B-A10B dan 397B, dalam dua tahap: SFT membangun kepatuhan terhadap instruksi dan konsistensi bahasa, RL (GRPO) mengoptimalkan efisiensi pencarian dan alat. Data mencakup tanya jawab verifikasi multi-langkah buatan sendiri dan kondisi rubrik, hadiah menggunakan penggabungan terkendali dan penalti efisiensi yang diatur dalam grup. Pengujian menunjukkan pada FRAMES, satu kali panggilan alat 57,3%, empat kali panggilan 73,9%, biaya sekitar 2 sen dolar, lebih baik dari GPT-5.4 dan Sonnet.

BlockBeatNews

2026-04-23 05:07:25

Pembuatan abstrak sedang berlangsung

Menurut pemantauan Beating Monitoring, tim penelitian Perplexity menerbitkan artikel teknis yang memaparkan proses pelatihan ulang agen pencarian web mereka. Proses ini didasarkan pada model sumber terbuka Qwen3.5-122B-A10B dan Qwen3.5-397B-A17B, menggunakan skema dua tahap: pertama melakukan penyetelan halus pengawasan (SFT) untuk membangun perilaku wajib seperti mengikuti instruksi dan konsistensi bahasa, kemudian menggunakan pembelajaran penguatan strategi daring (RL) untuk mengoptimalkan akurasi pencarian dan efisiensi penggunaan alat.

Tahap RL menggunakan algoritma GRPO, dengan data pelatihan terdiri dari dua bagian: pertama, dataset tanya jawab verifikasi multi-langkah sintetis yang dikembangkan sendiri, dimulai dari query benih internal, membangun pertanyaan yang memerlukan inferensi 2 hingga 4 langkah melalui rantai entitas, dan diverifikasi keunikannya oleh beberapa solver independen; kedua, data dialog umum berbasis standar penilaian (rubric), mengubah persyaratan deployment seperti mengikuti instruksi dan batasan format menjadi kondisi atom yang dapat diperiksa secara objektif, digunakan selama tahap RL untuk mencegah degradasi perilaku yang dibangun melalui SFT.

Inti dari desain hadiah adalah penggabungan terkendali: hanya ketika baseline benar (pertanyaan dan jawaban atau semua standar penilaian terpenuhi), skor preferensi akan ikut dihitung, mencegah sinyal preferensi tinggi menutupi kesalahan faktual. Penalti efisiensi menggunakan metode penetapan jangkar dalam grup, dengan jawaban benar dalam grup sebagai patokan, memberikan penalti halus terhadap jumlah panggilan alat dan panjang keluaran yang berlebihan.

Pengujian menunjukkan bahwa Qwen3.5-397B-SFT-RL pasca pelatihan menunjukkan performa terbaik di berbagai tolok ukur pencarian. Di FRAMES, panggilan alat tunggal mencapai 57,3%, lebih tinggi 5,7 poin persen dari GPT-5.4 dan 4,7 poin persen dari Sonnet 4.6. Dengan anggaran sedang (4 panggilan alat), mencapai 73,9%, dengan biaya per query sebesar 2,0 sen dolar AS; dalam kondisi yang sama, GPT-5.4 mencapai 67,8% / 8,5 sen dolar, dan Sonnet 4.6 mencapai 62,4% / 15,3 sen dolar. Data biaya dihitung berdasarkan harga API yang diumumkan masing-masing vendor, belum termasuk optimisasi cache.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
WCTCTradingKingPK
153.53K Popularitas
#
CryptoMarketSeesVolatility
218.7K Popularitas
#
IsraelStrikesIranBTCPlunges
31.32K Popularitas
#
rsETHAttackUpdate
66.46K Popularitas
#
US-IranTalksStall
172.76K Popularitas

Sematkan

peta situs

Metode pelatihan setelah pencarian agen terbuka Perplexity, berdasarkan model Qwen3.5 mengungguli GPT-5.4 dari segi akurasi dan biaya

Topik Trending

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Sematkan