Согласно мониторингу Dongcha Beating, команда исследования Perplexity опубликовала техническую статью, подробно описывающую процесс дообучения своего агента веб-поиска. Этот процесс основан на моделях с открытым исходным кодом Qwen3.5-122B-A10B и Qwen3.5-397B-A17B, использующих двухэтапный подход: сначала, с помощью контролируемого тонкого обучения (SFT) устанавливаются необходимые поведения для развертывания, такие как соблюдение инструкций и языковая согласованность; затем, онлайн-обучение с усилением политики (RL) оптимизирует точность поиска и эффективность использования инструментов. Этап RL использует алгоритм GRPO, при этом обучающие данные состоят из двух частей: во-первых, самодельный многоступенчатый проверяемый набор данных вопросов и ответов, который формирует вопросы, требующие 2-4 шага рассуждения из внутренних исходных запросов и проверяет уникальность ответов с помощью нескольких независимых решателей; во-вторых, общие диалоговые данные на основе критериев оценки (rubric), которые преобразуют требования к развертыванию, такие как соблюдение инструкций и ограничения формата, в объективно проверяемые атомарные условия, чтобы предотвратить ухудшение поведения, установленного во время SFT, в фазе RL. Основой дизайна награды является гейтированная агрегация: оценки предпочтений учитываются только при правильной базовой оценке (то есть, когда вопрос-ответ правильный или все критерии оценки выполнены), что предотвращает маскировку фактических ошибок высокими сигналами предпочтений. Пенальти за эффективность применяются с помощью метода внутри-группового закрепления, при котором правильные ответы в одной группе служат базой для мягких штрафов за чрезмерное использование инструментов и длину генерации. Оценка показывает, что послеобученная модель Qwen3.5-397B-SFT-RL показывает оптимальные результаты на нескольких бенчмарках поиска. На FRAMES одно использование инструмента достигает 57,3%, что превосходит GPT-5.4 на 5,7 процентных пункта и Sonnet 4.6 на 4,7 процентных пункта. При среднем бюджете (4 инструмента) достигает 73,9%, при стоимости 2,0 цента за запрос; при тех же условиях GPT-5.4 достигает 67,8% при стоимости 8,5 цента, а Sonnet 4.6 — 62,4% при стоимости 15,3 цента. Данные о стоимости рассчитаны на основе общедоступных цен API каждого поставщика, исключая оптимизацию кэша.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
344.66K Популярность
#
CryptoMarketsDipSlightly
249.57K Популярность
#
IsraelStrikesIranBTCPlunges
35.63K Популярность
#
#DailyPolymarketHotspot
686.6K Популярность
#
StrategyAccumulates2xMiningRate
139.46M Популярность

Закрепить

Карта сайта

Perplexity раскрывает метод постобучения для поискового агента, модель Qwen3.5 превосходит GPT-5.4 по точности и стоимости

Популярные темы

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

Закрепить