ME News Berita, 23 April (UTC+8), menurut pemantauan Beating, tim riset Perplexity menerbitkan artikel teknis yang mengungkapkan proses pasca-pelatihan agen pencarian web mereka. Proses ini didasarkan pada model sumber terbuka Qwen3.5-122B-A10B dan Qwen3.5-397B-A17B, dengan skema dua tahap: pertama, menggunakan Supervised Fine-Tuning (SFT) untuk membangun perilaku yang diperlukan dalam penerapan seperti kepatuhan instruksi dan konsistensi bahasa; kemudian, menggunakan Reinforcement Learning (RL) dengan kebijakan online untuk mengoptimalkan akurasi pencarian dan efisiensi penggunaan alat. Tahap RL menggunakan algoritma GRPO, dengan data pelatihan yang terdiri dari dua bagian: pertama, kumpulan data Q&A multi-hop yang dapat diverifikasi dan disintesis secara internal, dimulai dari kueri seed internal, membangun pertanyaan yang memerlukan penalaran 2 hingga 4 hop melalui rantai entitas, dan memverifikasi keunikan jawaban dengan beberapa pemecah independen; kedua, data percakapan umum berdasarkan rubrik, yang mengubah persyaratan penerapan seperti kepatuhan instruksi dan batasan format menjadi kondisi atomik yang dapat diperiksa secara objektif, untuk mencegah degradasi perilaku yang dibangun oleh SFT selama fase RL. Inti dari desain reward adalah agregasi terpintas: skor preferensi hanya berpartisipasi dalam perhitungan ketika baseline benar (jawaban Q&A benar atau semua kriteria rubrik terpenuhi), mencegah sinyal preferensi tinggi menutupi kesalahan faktual. Penalti efisiensi menggunakan metode penjangkaran dalam grup, dengan jawaban benar dalam grup yang sama sebagai acuan, memberikan penalti halus untuk jumlah panggilan alat dan panjang generasi yang berlebihan. Evaluasi menunjukkan bahwa Qwen3.5-397B-SFT-RL setelah pasca-pelatihan mencapai performa terbaik di beberapa benchmark pencarian. Pada FRAMES, dengan satu panggilan alat mencapai 57,3%, lebih tinggi 5,7 poin persentase dari GPT-5.4, dan lebih tinggi 4,7 poin persentase dari Sonnet 4.6. Dengan anggaran sedang (4 panggilan alat) mencapai 73,9%, biaya per kueri 2,0 sen; dalam kondisi yang sama, GPT-5.4 adalah 67,8% / 8,5 sen, Sonnet 4.6 adalah 62,4% / 15,3 sen. Data biaya dihitung berdasarkan harga API publik masing-masing vendor, belum termasuk optimalisasi cache. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
SKHynixTopsKOSPIByMarketCap
1,54M Popularitas
#
MicronEarningsBeatExpectationsSharesRise
167,96K Popularitas
#
IsraelStrikesIranBTCPlunges
63,57K Popularitas
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
322,15K Popularitas
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
550,05K Popularitas

Disematkan

peta situs

Perplexity mempublikasikan metode pelatihan pasca-pencarian Agen, model berbasis Qwen3.5 melebihi GPT-5.4 dalam akurasi dan biaya.

Topik Trending

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Disematkan