ME News повідомляє, 23 квітня (UTC+8), за даними моніторингу Beating, дослідницька команда Perplexity опублікувала технічну статтю, в якій розкриває процес посттренування свого веб-пошукового агента.

Цей процес базується на відкритих моделях Qwen3.5-122B-A10B та Qwen3.5-397B-A17B і використовує двоетапну схему: спочатку контрольоване донавчання (SFT) для встановлення необхідних для розгортання поведінок, таких як виконання інструкцій та мовна узгодженість, а потім онлайн-стратегічне навчання з підкріпленням (RL) для оптимізації точності пошуку та ефективності використання інструментів.

На етапі RL використовується алгоритм GRPO. Тренувальні дані складаються з двох частин: по-перше, власноруч синтезований набір даних багатокрокових верифікованих запитань і відповідей, що починається з внутрішніх початкових запитів, конструює завдання, які потребують 2–4 кроків міркування через ланцюжки сутностей, та верифікує унікальність відповідей за допомогою кількох незалежних вирішувачів; по-друге, універсальні діалогові дані на основі рубрик, які перетворюють вимоги розгортання (виконання інструкцій, обмеження формату тощо) на атомарні умови, що піддаються об'єктивній перевірці, для запобігання регресії поведінки, встановленої SFT на етапі RL.

Основою дизайну винагороди є воротарна агрегація: лише коли базовий рівень є правильним (правильна відповідь на запитання або повне задоволення рубрики), оцінка переваги бере участь у обчисленні, що запобігає маскуванню фактичних помилок сигналами високої переваги. Штраф за ефективність використовує внутрішньогрупове якоріння, базуючись на правильних відповідях у тій самій групі, та застосовує плавний штраф до надмірної кількості викликів інструментів і довжини генерування.

Оцінки показують, що Qwen3.5-397B-SFT-RL після посттренування демонструє найкращі результати на кількох пошукових бенчмарках. На FRAMES з одним викликом інструменту досягає 57.3%, що на 5.7 відсоткових пунктів вище, ніж у GPT-5.4, та на 4.7 відсоткових пункти вище, ніж у Sonnet 4.6. При середньому бюджеті (4 виклики інструменту) досягає 73.9% з вартістю 2.0 центи за запит; за тих самих умов GPT-5.4 має 67.8% / 8.5 центів, а Sonnet 4.6 — 62.4% / 15.3 центи. Дані про вартість розраховано за опублікованими цінами API виробників, без врахування оптимізації кешу.

(Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
SKHynixTopsKOSPIByMarketCap
1,55M Популярність
#
MicronEarningsBeatExpectationsSharesRise
339,24K Популярність
#
IsraelStrikesIranBTCPlunges
63,74K Популярність
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
339,14K Популярність
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
556,83K Популярність

Закріплено

карта сайту

Perplexity публічно оприлюднив метод пост-тренування пошукового агента, модель на основі Qwen3.5 перевершує GPT-5.4 за точністю та вартістю.

Популярні теми

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Закріплено