Perplexity публікує метод післятренування пошукового агента, модель на основі Qwen3.5 перевершує GPT-5.4 за точністю та вартістю.

robot
Генерація анотацій у процесі
ME News повідомляє, 23 квітня (UTC+8), за даними моніторингу Dongcha Beating, дослідницька команда Perplexity опублікувала технічну статтю, в якій розкриває процес пост-тренування свого веб-пошукового агента. Цей процес базується на відкритих моделях Qwen3.5-122B-A10B та Qwen3.5-397B-A17B і використовує двоетапну схему: спочатку контрольоване мікроналаштування (SFT) для встановлення необхідних для розгортання поведінок, таких як виконання інструкцій та мовна узгодженість, а потім онлайн-навчання з підкріпленням (RL) для оптимізації точності пошуку та ефективності використання інструментів. На етапі RL використовується алгоритм GRPO, навчальні дані складаються з двох частин: по-перше, власноруч синтезований набір багатокрокових верифікованих запитань-відповідей, починаючи з внутрішніх початкових запитів, через ланцюжки сутностей конструюються завдання, що потребують від 2 до 4 кроків міркування, а унікальність відповідей перевіряється кількома незалежними вирішувачами; по-друге, загальні діалогові дані на основі рубрики, які перетворюють вимоги до розгортання, такі як виконання інструкцій та обмеження формату, на об'єктивно перевірювані атомарні умови, що запобігають деградації поведінки, встановленої SFT, на етапі RL. Ключовим елементом дизайну винагороди є гейтова агрегація: тільки коли базовий рівень правильний (відповідь на запитання правильна або всі критерії рубрики виконані), оцінка переваги бере участь у розрахунку, щоб запобігти маскуванню фактичних помилок високими сигналами переваги. Штраф за неефективність застосовується через внутрішньогрупове закріплення: на основі правильних відповідей у тій самій групі застосовується плавний штраф за перевищення кількості викликів інструментів та довжини генерації. Оцінки показують, що пост-тренований Qwen3.5-397B-SFT-RL демонструє найкращі результати на кількох пошукових бенчмарках. На FRAMES з одним викликом інструмента досягає 57.3%, що на 5.7 відсоткових пунктів вище, ніж у GPT-5.4, і на 4.7 пунктів вище, ніж у Sonnet 4.6. За середнього бюджету (4 виклики інструментів) досягає 73.9% з вартістю 2.0 цента за запит; за тих самих умов GPT-5.4 має 67.8% / 8.5 центів, а Sonnet 4.6 – 62.4% / 15.3 центів. Дані про вартість розраховані за публічними цінами API відповідних постачальників, без урахування оптимізації кешу. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено