Метод навчання після відкритого пошуку агентом Perplexity, заснований на моделі Qwen3.5, перевищує GPT-5.4 за точністю та вартістю

robot
Генерація анотацій у процесі

Згідно з моніторингом Beating, команда дослідження Perplexity опублікувала технічну статтю, в якій розкрила процес додаткового навчання свого пошукового агента. Цей процес базується на відкритій моделі Qwen3.5-122B-A10B та Qwen3.5-397B-A17B, і використовує двоступеневу схему: спочатку з допомогою контролюваного тонкого налаштування (SFT) створюються необхідні для розгортання поведінки, такі як дотримання інструкцій та мовна узгодженість, потім за допомогою онлайн-стратегії підкріпленого навчання (RL) оптимізується точність пошуку та ефективність використання інструментів.

На етапі RL використовується алгоритм GRPO, а дані для тренування складаються з двох частин: по-перше, синтезований внутрішньою командою багатоступеневий набір даних для перевіряємих відповідей, який починається з внутрішнього запиту, і через побудову ланцюжка сутностей створює питання з 2-4 кроками логіки, а відповіді перевіряються кількома незалежними розв’язувачами на унікальність; по-друге, універсальні діалогові дані на основі критеріїв оцінювання (rubric), які перетворюють вимоги до дотримання інструкцій, форматування тощо у об’єктивно перевіряємі атомарні умови, що використовуються на етапі RL для запобігання деградації поведінки, сформованої на SFT.

Ключовий аспект дизайну винагороди — гейтований агрегат: лише у разі правильності базової відповіді (відповідь відповідає запиту або всі критерії оцінювання виконані) перевага враховується при підрахунку балів, щоб запобігти приховуванню фактичних помилок сильним сигналом переваги. Заохочення за ефективність застосовує внутрішнє закріплення у групі, базуючись на правильних відповідях у цій же групі, і застосовує плавне штрафування для перевищення кількості викликів інструментів та довжини генерованих відповідей.

Оцінки показують, що після додаткового навчання модель Qwen3.5-397B-SFT-RL демонструє найкращі результати на кількох пошукових бенчмарках. На FRAMES вона досягає 57.3% при одному виклику інструменту, що на 5.7 відсоткових пунктів більше за GPT-5.4 та на 4.7 — за Sonnet 4.6. При середньому бюджеті (4 виклики інструментів) показник становить 73.9%, а вартість запиту — 2.0 цента США; за аналогічних умов GPT-5.4 має 67.8% / 8.5 цента, а Sonnet 4.6 — 62.4% / 15.3 цента. Вартісні дані розраховані за публічною ціною API кожного виробника, без урахування кешування.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити