Перемога Надання інформації про процес додаткового навчання пошукового агенту на основі веб-сторінок, базуючись на Qwen3.5-122B-A10B та 397B, у двох етапах: SFT для створення інструкційного слідування та мовної узгодженості, RL (GRPO) для оптимізації пошуку та ефективності інструментів. Дані включають самостійно розроблені багатоступеневі перевірені питання та відповіді, а також умови рубрики, нагороди використовують керовану агрегацію та внутрішнє групове закріплення ефективності штрафами. Оцінки показують, що на FRAMES один виклик інструменту становить 57.3%, чотири виклики — 73.9%, вартість приблизно 2 цента, що перевищує GPT-5.4 та Sonnet.

BlockBeatNews

2026-04-23 05:07:25

Генерація анотацій у процесі

Згідно з моніторингом Beating, команда дослідження Perplexity опублікувала технічну статтю, в якій розкрила процес додаткового навчання свого пошукового агента. Цей процес базується на відкритій моделі Qwen3.5-122B-A10B та Qwen3.5-397B-A17B, і використовує двоступеневу схему: спочатку з допомогою контролюваного тонкого налаштування (SFT) створюються необхідні для розгортання поведінки, такі як дотримання інструкцій та мовна узгодженість, потім за допомогою онлайн-стратегії підкріпленого навчання (RL) оптимізується точність пошуку та ефективність використання інструментів.

На етапі RL використовується алгоритм GRPO, а дані для тренування складаються з двох частин: по-перше, синтезований внутрішньою командою багатоступеневий набір даних для перевіряємих відповідей, який починається з внутрішнього запиту, і через побудову ланцюжка сутностей створює питання з 2-4 кроками логіки, а відповіді перевіряються кількома незалежними розв’язувачами на унікальність; по-друге, універсальні діалогові дані на основі критеріїв оцінювання (rubric), які перетворюють вимоги до дотримання інструкцій, форматування тощо у об’єктивно перевіряємі атомарні умови, що використовуються на етапі RL для запобігання деградації поведінки, сформованої на SFT.

Ключовий аспект дизайну винагороди — гейтований агрегат: лише у разі правильності базової відповіді (відповідь відповідає запиту або всі критерії оцінювання виконані) перевага враховується при підрахунку балів, щоб запобігти приховуванню фактичних помилок сильним сигналом переваги. Заохочення за ефективність застосовує внутрішнє закріплення у групі, базуючись на правильних відповідях у цій же групі, і застосовує плавне штрафування для перевищення кількості викликів інструментів та довжини генерованих відповідей.

Оцінки показують, що після додаткового навчання модель Qwen3.5-397B-SFT-RL демонструє найкращі результати на кількох пошукових бенчмарках. На FRAMES вона досягає 57.3% при одному виклику інструменту, що на 5.7 відсоткових пунктів більше за GPT-5.4 та на 4.7 — за Sonnet 4.6. При середньому бюджеті (4 виклики інструментів) показник становить 73.9%, а вартість запиту — 2.0 цента США; за аналогічних умов GPT-5.4 має 67.8% / 8.5 цента, а Sonnet 4.6 — 62.4% / 15.3 цента. Вартісні дані розраховані за публічною ціною API кожного виробника, без урахування кешування.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
Gate13thAnniversaryLive
1.23M Популярність
#
WCTCTradingChallengeShare8MUSDT
802.11K Популярність
#
BitcoinBouncesBack
217.27K Популярність
#
IsraelStrikesIranBTCPlunges
30.66K Популярність
#
EthereumMemeSeasonReturns
2M Популярність

Закріпити

карта сайту

Метод навчання після відкритого пошуку агентом Perplexity, заснований на моделі Qwen3.5, перевищує GPT-5.4 за точністю та вартістю

Популярні теми

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Закріпити