Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 30 моделей ИИ, без дополнительных затрат (0%)
Perplexity раскрывает метод постобучения для поискового агента, модель Qwen3.5 превосходит GPT-5.4 по точности и стоимости
Согласно мониторингу Dongcha Beating, команда исследования Perplexity опубликовала техническую статью, подробно описывающую процесс дообучения своего агента веб-поиска. Этот процесс основан на моделях с открытым исходным кодом Qwen3.5-122B-A10B и Qwen3.5-397B-A17B, использующих двухэтапный подход: сначала, с помощью контролируемого тонкого обучения (SFT) устанавливаются необходимые поведения для развертывания, такие как соблюдение инструкций и языковая согласованность; затем, онлайн-обучение с усилением политики (RL) оптимизирует точность поиска и эффективность использования инструментов. Этап RL использует алгоритм GRPO, при этом обучающие данные состоят из двух частей: во-первых, самодельный многоступенчатый проверяемый набор данных вопросов и ответов, который формирует вопросы, требующие 2-4 шага рассуждения из внутренних исходных запросов и проверяет уникальность ответов с помощью нескольких независимых решателей; во-вторых, общие диалоговые данные на основе критериев оценки (rubric), которые преобразуют требования к развертыванию, такие как соблюдение инструкций и ограничения формата, в объективно проверяемые атомарные условия, чтобы предотвратить ухудшение поведения, установленного во время SFT, в фазе RL. Основой дизайна награды является гейтированная агрегация: оценки предпочтений учитываются только при правильной базовой оценке (то есть, когда вопрос-ответ правильный или все критерии оценки выполнены), что предотвращает маскировку фактических ошибок высокими сигналами предпочтений. Пенальти за эффективность применяются с помощью метода внутри-группового закрепления, при котором правильные ответы в одной группе служат базой для мягких штрафов за чрезмерное использование инструментов и длину генерации. Оценка показывает, что послеобученная модель Qwen3.5-397B-SFT-RL показывает оптимальные результаты на нескольких бенчмарках поиска. На FRAMES одно использование инструмента достигает 57,3%, что превосходит GPT-5.4 на 5,7 процентных пункта и Sonnet 4.6 на 4,7 процентных пункта. При среднем бюджете (4 инструмента) достигает 73,9%, при стоимости 2,0 цента за запрос; при тех же условиях GPT-5.4 достигает 67,8% при стоимости 8,5 цента, а Sonnet 4.6 — 62,4% при стоимости 15,3 цента. Данные о стоимости рассчитаны на основе общедоступных цен API каждого поставщика, исключая оптимизацию кэша.