Menurut pemantauan oleh Dongcha Beating, tim riset Perplexity telah menerbitkan artikel teknis yang merinci proses pasca-pelatihan untuk agen pencari web-nya.
Proses ini didasarkan pada model sumber terbuka Qwen3.5-122B-A10B dan Qwen3.5-397B-A17B, menggunakan pendekatan dua tahap: pertama, penyempurnaan terawasi (SFT) digunakan untuk menetapkan perilaku yang diperlukan untuk penerapan, seperti kepatuhan terhadap instruksi dan konsistensi bahasa; kemudian, pembelajaran penguatan kebijakan daring (RL) mengoptimalkan akurasi pencarian dan efisiensi penggunaan alat.
Fase RL memanfaatkan algoritma GRPO, dengan data pelatihan yang terdiri dari dua bagian: pertama, dataset pertanyaan-jawaban yang dapat diverifikasi multi-lompatan yang dikembangkan sendiri, yang menyusun pertanyaan yang membutuhkan 2 hingga 4 lompatan penalaran dari kueri benih internal dan memverifikasi keunikan jawaban dengan beberapa solver independen; kedua, data dialog umum berdasarkan kriteria penilaian (rubric), yang mengubah kebutuhan penerapan seperti kepatuhan terhadap instruksi dan batasan format menjadi kondisi atom yang dapat diperiksa secara objektif untuk mencegah degradasi perilaku yang telah ditetapkan selama SFT di fase RL.
Inti dari desain hadiah adalah penggabungan terbatas: skor preferensi hanya dipertimbangkan dalam perhitungan ketika baseline benar (yaitu, jawaban pertanyaan benar atau semua kriteria penilaian terpenuhi), mencegah sinyal preferensi tinggi menutupi kesalahan faktual.
Denda efisiensi diterapkan menggunakan metode jangkar antar grup, di mana jawaban yang benar dalam grup yang sama berfungsi sebagai baseline untuk memberlakukan penalti halus pada jumlah panggilan alat yang berlebihan dan panjang generasi.
Evaluasi menunjukkan bahwa Qwen3.5-397B-SFT-RL pasca-pelatihan berkinerja optimal di berbagai tolok ukur pencarian.
Pada FRAMES, satu panggilan alat mencapai 57,3%, melampaui GPT-5.4 sebesar 5,7 poin persentase dan Sonnet 4,6 sebesar 4,7 poin persentase.
Di bawah anggaran sedang (4 panggilan alat), mencapai 73,9%, dengan biaya 2,0 sen per kueri; di kondisi yang sama, GPT-5.4 mencapai 67,8% dengan biaya 8,5 sen, dan Sonnet 4,6 mencapai 62,4% dengan biaya 15,3 sen.
Data biaya dihitung berdasarkan harga API yang tersedia secara publik dari setiap vendor, tidak termasuk optimisasi cache.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
WCTCTradingKingPK
344.66K Popularitas
#
CryptoMarketsDipSlightly
249.57K Popularitas
#
IsraelStrikesIranBTCPlunges
35.63K Popularitas
#
#DailyPolymarketHotspot
686.6K Popularitas
#
StrategyAccumulates2xMiningRate
139.46M Popularitas

Sematkan

peta situs

Perplexity Mengungkap Metode Pasca-Pelatihan untuk Agen Pencarian, Model Qwen3.5 Mengungguli GPT-5.4 dalam Akurasi dan Biaya

Topik Trending

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

Sematkan