Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 30 моделей ИИ, без дополнительных затрат (0%)
После публичного поиска агента Perplexity методы обучения, основанные на модели Qwen3.5, превосходят GPT-5.4 по точности и стоимости
Согласно мониторингу Beating, команда исследователей Perplexity опубликовала техническую статью, в которой раскрыт процесс последующего обучения их поискового агента. Этот процесс основан на открытой модели Qwen3.5-122B-A10B и Qwen3.5-397B-A17B, использует двухэтапную схему: сначала с помощью контролируемой дообучения (SFT) формируются необходимые для развертывания поведения, такие как соблюдение инструкций и согласованность языка, затем с помощью онлайн-обучения с усилением (RL) оптимизируется точность поиска и эффективность использования инструментов.
Этап RL использует алгоритм GRPO, обучающие данные состоят из двух частей: первая — синтезированный внутренней командой многошаговый проверяемый набор данных вопросов и ответов, начиная с внутреннего семенного запроса, с помощью построения цепочек сущностей формируются вопросы, требующие 2-4 шага рассуждения, и ответы проверяются несколькими независимыми решателями на уникальность; вторая — универсальные диалоговые данные на основе критериев оценки (rubric), преобразующие требования к соблюдению инструкций, форматированию и другим аспектам развертывания в объективно проверяемые атомарные условия, предназначенные для предотвращения деградации поведения, сформированного на этапе SFT, в процессе RL.
Ключевая часть дизайна награды — гейтуинг-агрегация: только при правильности базовой модели (вопрос-ответ или выполнение всех критериев оценки) предпочтительный балл участвует в расчёте, что предотвращает маскировку фактических ошибок сильным сигналом предпочтения. Эффективность штрафуется с помощью группового закрепления, где правильные ответы внутри группы служат базой, и за превышение количества вызовов инструментов и длины генерации применяется сглаженное наказание.
Оценки показывают, что после обучения Qwen3.5-397B-SFT-RL демонстрирует лучшие результаты на нескольких поисковых бенчмарках. В FRAMES, один вызов инструмента достигает 57.3%, что на 5.7 процентных пункта выше GPT-5.4 и на 4.7 — Sonnet 4.6. При среднем бюджете (4 вызова инструмента) показатели составляют 73.9%, стоимость каждого запроса — 2.0 цента; при тех же условиях GPT-5.4 — 67.8% / 8.5 цента, Sonnet 4.6 — 62.4% / 15.3 цента. Стоимость рассчитана по публичным API ценам каждого производителя, без учета кэширования.