ME News berita, 23 April (UTC+8), menurut pemantauan oleh Dongcha Beating, tim riset Perplexity menerbitkan artikel teknis yang mengungkap proses pasca-pelatihan dari agen pencarian web mereka.
Proses ini didasarkan pada model sumber terbuka Qwen3.5-122B-A10B dan Qwen3.5-397B-A17B, menggunakan skema dua tahap: pertama, supervised fine-tuning (SFT) untuk membangun kepatuhan instruksi, konsistensi bahasa, dan perilaku lain yang diperlukan untuk penerapan; kemudian, online policy reinforcement learning (RL) untuk mengoptimalkan akurasi pencarian dan efisiensi penggunaan alat.
Tahap RL menggunakan algoritma GRPO, data pelatihan terdiri dari dua bagian: pertama, kumpulan data tanya jawab multi-hop yang dapat diverifikasi hasil sintesis internal, dimulai dari kueri benih internal, membangun pertanyaan yang memerlukan 2 hingga 4 hop penalaran melalui rantai entitas, dan memverifikasi keunikan jawaban dengan beberapa pemecah independen; kedua, data dialog umum berdasarkan rubrik, yang mengubah persyaratan penerapan seperti kepatuhan instruksi dan batasan format menjadi kondisi atom yang dapat diperiksa secara objektif, digunakan untuk mencegah degradasi perilaku yang dibangun oleh SFT selama tahap RL.
Inti dari desain penghargaan adalah agregasi gerbang: hanya ketika baseline benar (tanya jawab benar atau semua kriteria rubrik terpenuhi), skor preferensi berpartisipasi dalam perhitungan, mencegah sinyal preferensi tinggi menutupi kesalahan faktual. Penalti efisiensi menggunakan cara jangkar dalam grup, dengan jawaban benar dalam grup yang sama sebagai baseline, menerapkan penalti halus untuk jumlah panggilan alat dan panjang generasi yang berlebihan.
Evaluasi menunjukkan bahwa Qwen3.5-397B-SFT-RL pasca-pelatihan menunjukkan performa terbaik di beberapa tolok ukur pencarian. Pada FRAMES, dengan satu panggilan alat mencapai 57,3%, lebih tinggi 5,7 poin persentase dari GPT-5.4, dan lebih tinggi 4,7 poin persentase dari Sonnet 4.6.
Dengan anggaran menengah (4 panggilan alat) mencapai 73,9%, biaya per kueri 2,0 sen; dalam kondisi yang sama, GPT-5.4 adalah 67,8% / 8,5 sen, Sonnet 4.6 adalah 62,4% / 15,3 sen.
Data biaya dihitung berdasarkan harga API publik masing-masing vendor, tidak termasuk optimalisasi cache.
（Sumber: BlockBeats）

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
SKHynixTopsKOSPIByMarketCap
1,55M Popularitas
#
MicronEarningsBeatExpectationsSharesRise
339,24K Popularitas
#
IsraelStrikesIranBTCPlunges
63,74K Popularitas
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
339,14K Popularitas
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
556,83K Popularitas

Disematkan

peta situs

Perplexity mempublikasikan metode pasca-pelatihan Agent pencarian, model berbasis Qwen3.5 melampaui GPT-5.4 dalam akurasi dan biaya.

Topik Trending

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Disematkan