Perplexity опубликовала метод пост-тренировки агента поиска, модель на основе Qwen3.5 превосходит GPT-5.4 по точности и стоимости.

robot
Генерация тезисов в процессе
ME News сообщает, 23 апреля (UTC+8), по данным мониторинга Beating, исследовательская группа Perplexity опубликовала техническую статью, в которой раскрыла процесс пост-тренировки своего веб-поискового агента. Этот процесс основан на открытых моделях Qwen3.5-122B-A10B и Qwen3.5-397B-A17B и использует двухэтапный подход: сначала supervised fine-tuning (SFT) для установления необходимого для развертывания поведения, такого как следование инструкциям и языковая согласованность, а затем онлайн-обучение с подкреплением (RL) для оптимизации точности поиска и эффективности использования инструментов. На этапе RL используется алгоритм GRPO, обучающие данные состоят из двух частей: во-первых, самостоятельно созданные многопереходные проверяемые наборы данных вопросов-ответов, начиная с внутренних seed-запросов, через цепочки сущностей строятся задачи, требующие от 2 до 4 переходов рассуждений, а уникальность ответов проверяется несколькими независимыми решателями; во-вторых, общие диалоговые данные на основе рубрик, которые преобразуют требования развертывания, такие как следование инструкциям и форматные ограничения, в объективно проверяемые атомарные условия, используемые на этапе RL для предотвращения деградации поведения, установленного SFT. Ключевым моментом в дизайне вознаграждения является гейтированная агрегация: только когда базовая линия корректна (вопрос-ответ правильный или все критерии рубрики выполнены), предпочтительный балл участвует в расчете, что предотвращает маскировку фактических ошибок сигналами высокого предпочтения. Штраф за эффективность использует внутригрупповое привязывание: на основе правильных ответов в той же группе накладывается плавный штраф на превышение количества вызовов инструментов и длины генерации. Оценки показывают, что после пост-тренировки Qwen3.5-397B-SFT-RL показывает наилучшие результаты на нескольких поисковых бенчмарках. На FRAMES с одним вызовом инструмента достигает 57,3%, что на 5,7 процентных пункта выше, чем GPT-5.4, и на 4,7 процентных пункта выше, чем Sonnet 4.6. При среднем бюджете (4 вызова инструмента) достигает 73,9% при стоимости 2,0 цента за запрос; при тех же условиях GPT-5.4 показывает 67,8% / 8,5 цента, Sonnet 4.6 — 62,4% / 15,3 цента. Данные о стоимости рассчитаны по публичным API-тарифам каждого производителя, без учета оптимизации кэша. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено