Dasar
Spot
Perdagangkan kripto dengan bebas
Perdagangan Margin
Perbesar keuntungan Anda dengan leverage
Konversi & Investasi Otomatis
0 Fees
Perdagangkan dalam ukuran berapa pun tanpa biaya dan tanpa slippage
ETF
Dapatkan eksposur ke posisi leverage dengan mudah
Perdagangan Pre-Market
Perdagangkan token baru sebelum listing
Futures
Akses ribuan kontrak perpetual
TradFi
Emas
Satu platform aset tradisional global
Opsi
Hot
Perdagangkan Opsi Vanilla ala Eropa
Akun Terpadu
Memaksimalkan efisiensi modal Anda
Perdagangan Demo
Pengantar tentang Perdagangan Futures
Bersiap untuk perdagangan futures Anda
Acara Futures
Gabung acara & dapatkan hadiah
Perdagangan Demo
Gunakan dana virtual untuk merasakan perdagangan bebas risiko
Peluncuran
CandyDrop
Koleksi permen untuk mendapatkan airdrop
Launchpool
Staking cepat, dapatkan token baru yang potensial
HODLer Airdrop
Pegang GT dan dapatkan airdrop besar secara gratis
Pre-IPOs
Buka akses penuh ke IPO saham global
Poin Alpha
Perdagangkan aset on-chain, raih airdrop
Poin Futures
Dapatkan poin futures dan klaim hadiah airdrop
Investasi
Simple Earn
Dapatkan bunga dengan token yang menganggur
Investasi Otomatis
Investasi otomatis secara teratur
Investasi Ganda
Keuntungan dari volatilitas pasar
Soft Staking
Dapatkan hadiah dengan staking fleksibel
Pinjaman Kripto
0 Fees
Menjaminkan satu kripto untuk meminjam kripto lainnya
Pusat Peminjaman
Hub Peminjaman Terpadu
Promosi
AI
Gate AI
Partner AI serbaguna untuk Anda
Gate AI Bot
Gunakan Gate AI langsung di aplikasi sosial Anda
GateClaw
Gate Blue Lobster, langsung pakai
Gate for AI Agent
Infrastruktur AI, Gate MCP, Skills, dan CLI
Gate Skills Hub
10RB+ Skills
Dari kantor hingga trading, satu platform keterampilan membuat AI jadi lebih mudah digunakan
GateRouter
Pilih secara cerdas dari 30+ model AI, dengan 0% biaya tambahan
Perplexity Mengungkap Metode Pasca-Pelatihan untuk Agen Pencarian, Model Qwen3.5 Mengungguli GPT-5.4 dalam Akurasi dan Biaya
Menurut pemantauan oleh Dongcha Beating, tim riset Perplexity telah menerbitkan artikel teknis yang merinci proses pasca-pelatihan untuk agen pencari web-nya.
Proses ini didasarkan pada model sumber terbuka Qwen3.5-122B-A10B dan Qwen3.5-397B-A17B, menggunakan pendekatan dua tahap: pertama, penyempurnaan terawasi (SFT) digunakan untuk menetapkan perilaku yang diperlukan untuk penerapan, seperti kepatuhan terhadap instruksi dan konsistensi bahasa; kemudian, pembelajaran penguatan kebijakan daring (RL) mengoptimalkan akurasi pencarian dan efisiensi penggunaan alat.
Fase RL memanfaatkan algoritma GRPO, dengan data pelatihan yang terdiri dari dua bagian: pertama, dataset pertanyaan-jawaban yang dapat diverifikasi multi-lompatan yang dikembangkan sendiri, yang menyusun pertanyaan yang membutuhkan 2 hingga 4 lompatan penalaran dari kueri benih internal dan memverifikasi keunikan jawaban dengan beberapa solver independen; kedua, data dialog umum berdasarkan kriteria penilaian (rubric), yang mengubah kebutuhan penerapan seperti kepatuhan terhadap instruksi dan batasan format menjadi kondisi atom yang dapat diperiksa secara objektif untuk mencegah degradasi perilaku yang telah ditetapkan selama SFT di fase RL.
Inti dari desain hadiah adalah penggabungan terbatas: skor preferensi hanya dipertimbangkan dalam perhitungan ketika baseline benar (yaitu, jawaban pertanyaan benar atau semua kriteria penilaian terpenuhi), mencegah sinyal preferensi tinggi menutupi kesalahan faktual.
Denda efisiensi diterapkan menggunakan metode jangkar antar grup, di mana jawaban yang benar dalam grup yang sama berfungsi sebagai baseline untuk memberlakukan penalti halus pada jumlah panggilan alat yang berlebihan dan panjang generasi.
Evaluasi menunjukkan bahwa Qwen3.5-397B-SFT-RL pasca-pelatihan berkinerja optimal di berbagai tolok ukur pencarian.
Pada FRAMES, satu panggilan alat mencapai 57,3%, melampaui GPT-5.4 sebesar 5,7 poin persentase dan Sonnet 4,6 sebesar 4,7 poin persentase.
Di bawah anggaran sedang (4 panggilan alat), mencapai 73,9%, dengan biaya 2,0 sen per kueri; di kondisi yang sama, GPT-5.4 mencapai 67,8% dengan biaya 8,5 sen, dan Sonnet 4,6 mencapai 62,4% dengan biaya 15,3 sen.
Data biaya dihitung berdasarkan harga API yang tersedia secara publik dari setiap vendor, tidak termasuk optimisasi cache.