Згідно з моніторингом Dongcha Beating, команда досліджень Perplexity опублікувала технічну статтю, яка детально описує процес після тренування для свого агента веб-пошуку. Цей процес базується на відкритих моделях Qwen3.5-122B-A10B та Qwen3.5-397B-A17B, із застосуванням двоступеневого підходу: спочатку використовується кероване тонке налаштування (SFT) для встановлення необхідних поведінкових характеристик для розгортання, таких як дотримання інструкцій та мовна послідовність; потім, онлайн-навчання з підкріпленням політики (RL) оптимізує точність пошуку та ефективність використання інструментів. Фаза RL використовує алгоритм GRPO, а навчальні дані складаються з двох частин: по-перше, самостійно розроблений набір даних з багатоступеневих перевірюваних питань і відповідей, який формує питання, що вимагають 2-4 кроки логіки з внутрішніх початкових запитів і перевіряє унікальність відповіді за допомогою кількох незалежних розв’язувачів; по-друге, загальні дані діалогу на основі критеріїв оцінювання (rubric), які перетворюють вимоги до розгортання, такі як дотримання інструкцій та форматні обмеження, у об’єктивно перевіряємі атомарні умови, щоб запобігти деградації поведінки, встановленої під час SFT, у фазі RL. Основою дизайну винагороди є гейтована агрегація: бали переваги враховуються лише тоді, коли базовий рівень правильний (тобто, питання-відповідь правильні або всі критерії оцінювання виконані), що запобігає приховуванню фактичних помилок високими сигналами переваги. Пенальті за ефективність застосовуються за допомогою методу внутрішньогрупового закріплення, де правильні відповіді в одній групі слугують базовою лінією для м’якого накладання штрафів за надмірну кількість викликів інструментів і довжину генерації. Оцінка показує, що після тренування Qwen3.5-397B-SFT-RL працює оптимально на кількох бенчмарках пошуку. На FRAMES одне виклик інструменту досягає 57,3%, перевищуючи GPT-5.4 на 5,7 процентних пунктів і Sonnet 4.6 на 4,7 пунктів. За середнього бюджету (4 виклики інструментів), досягає 73,9%, з вартістю 2,0 центів за запит; за тих самих умов GPT-5.4 досягає 67,8% при 8,5 центах, а Sonnet 4.6 — 62,4% при 15,3 центах. Дані про вартість розраховані на основі публічно доступних цін на API від кожного постачальника, без урахування кеш-оптимізації.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
348.18K Популярність
#
CryptoMarketsDipSlightly
253.43K Популярність
#
IsraelStrikesIranBTCPlunges
35.79K Популярність
#
#DailyPolymarketHotspot
689.76K Популярність
#
StrategyAccumulates2xMiningRate
139.46M Популярність

Закріпити

карта сайту

Perplexity розкриває метод після тренування для пошукового агента, модель Qwen3.5 перевищує GPT-5.4 за точністю та вартістю

Популярні теми

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

Закріпити