Perplexity публікує метод пост-тренування агента пошуку, модель на основі Qwen3.5 перевершує GPT-5.4 за точністю та вартістю.

robot
Генерація анотацій у процесі
ME News повідомлення, 23 квітня (UTC+8), за даними моніторингу Dongcha Beating, дослідницька команда Perplexity опублікувала технічну статтю, розкриваючи процес пост-тренування свого веб-пошукового агента. Цей процес базується на відкритих моделях Qwen3.5-122B-A10B та Qwen3.5-397B-A17B, використовує двоетапну схему: спочатку за допомогою контрольованого тонкого налаштування (SFT) встановлюються необхідні для розгортання поведінки, такі як дотримання інструкцій та мовна узгодженість, а потім за допомогою онлайн-стратегічного навчання з підкріпленням (RL) оптимізуються точність пошуку та ефективність використання інструментів. На етапі RL використовується алгоритм GRPO, дані для навчання складаються з двох частин: по-перше, власноруч синтезований багатокроковий набір даних запитань-відповідей, який можна перевірити, починаючи з внутрішніх початкових запитів, через ланцюжки сутностей будуються питання, що вимагають 2-4 кроків міркувань, а унікальність відповідей перевіряється кількома незалежними вирішувачами; по-друге, загальні діалогові дані на основі рубрики, які перетворюють вимоги до розгортання, такі як дотримання інструкцій та обмеження формату, в атомарні умови, що піддаються об'єктивній перевірці, для запобігання деградації поведінки, встановленої SFT, на етапі RL. Основою дизайну винагород є контрольована агрегація: лише коли базовий рівень правильний (відповіді на запитання вірні або всі критерії рубрики виконані), бали переваги беруть участь у розрахунку, запобігаючи маскуванню фактичних помилок високими сигналами переваги. Штраф за ефективність використовує внутрішньогрупове якірне визначення: на основі правильних відповідей у тій самій групі накладається плавний штраф за перевищену кількість викликів інструментів та довжину генерації. Оцінки показують, що Qwen3.5-397B-SFT-RL після пост-тренування демонструє найкращі результати на кількох пошукових бенчмарках. На FRAMES, з одноразовим викликом інструменту досягає 57,3%, що на 5,7 відсоткових пунктів вище, ніж GPT-5.4, та на 4,7 відсоткових пунктів вище, ніж Sonnet 4.6. При середньому бюджеті (4 виклики інструменту) досягає 73,9%, вартість одного запиту 2,0 центи; за тих же умов GPT-5.4 становить 67,8% / 8,5 центів, Sonnet 4.6 — 62,4% / 15,3 центів. Дані про витрати розраховані за публічними цінами API відповідних виробників, без урахування оптимізації кешу. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено