Berita ME News, 23 April (UTC+8), menurut pemantauan oleh Beating, tim riset Perplexity menerbitkan artikel teknis yang mengungkapkan proses pasca-pelatihan dari agen pencarian web mereka.
Proses ini didasarkan pada model sumber terbuka Qwen3.5-122B-A10B dan Qwen3.5-397B-A17B, menggunakan skema dua tahap: pertama menggunakan fine-tuning terawasi (SFT) untuk membangun kepatuhan instruksi, konsistensi bahasa, dan perilaku lain yang diperlukan untuk penerapan, kemudian menggunakan penguatan pembelajaran kebijakan online (RL) untuk mengoptimalkan akurasi pencarian dan efisiensi penggunaan alat.
Tahap RL menggunakan algoritma GRPO, data pelatihan terdiri dari dua bagian: pertama, dataset tanya jawab multi-hop yang dapat diverifikasi yang disintesis sendiri, dimulai dari kueri benih internal, melalui rantai entitas untuk membangun pertanyaan yang membutuhkan penalaran 2 hingga 4 hop, dan diverifikasi keunikan jawaban oleh beberapa solver independen; kedua, data dialog umum berdasarkan rubrik penilaian, yang mengubah persyaratan penerapan seperti kepatuhan instruksi, batasan format menjadi kondisi atomik yang dapat diperiksa secara objektif, digunakan untuk mencegah degradasi perilaku yang dibangun oleh SFT selama tahap RL.
Inti dari desain hadiah adalah agregasi terkontrol: hanya ketika baseline benar (jawaban tanya jawab benar atau semua kriteria penilaian terpenuhi), skor preferensi berpartisipasi dalam kalkulasi, mencegah sinyal preferensi tinggi menutupi kesalahan faktual. Hukuman efisiensi menggunakan metode jangkar dalam grup, dengan dasar jawaban yang benar dalam grup yang sama, memberikan penalti halus untuk jumlah panggilan alat dan panjang generasi yang berlebihan.
Evaluasi menunjukkan bahwa Qwen3.5-397B-SFT-RL yang telah dilatih pasca-pelatihan menunjukkan kinerja terbaik di beberapa tolok ukur pencarian. Pada FRAMES, dengan satu panggilan alat mencapai 57,3%, 5,7 poin persentase lebih tinggi dari GPT-5.4, dan 4,7 poin persentase lebih tinggi dari Sonnet 4.6. Dengan anggaran sedang (4 panggilan alat) mencapai 73,9%, biaya per kueri 2,0 sen; dalam kondisi yang sama GPT-5.4 adalah 67,8% / 8,5 sen, Sonnet 4.6 adalah 62,4% / 15,3 sen. Data biaya dihitung berdasarkan harga API publik masing-masing vendor, tidak termasuk optimalisasi cache.
(Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
SKHynixTopsKOSPIByMarketCap
1,56M Popularitas
#
MicronEarningsBeatExpectationsSharesRise
346,57K Popularitas
#
IsraelStrikesIranBTCPlunges
63,87K Popularitas
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
343,07K Popularitas
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
558,14K Popularitas

Disematkan

peta situs

Perplexity mempublikasikan metode pelatihan agen pencarian, model berbasis Qwen3.5 melampaui GPT-5.4 dalam akurasi dan biaya.

Topik Trending

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Disematkan