Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Pre-IPOs
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Метод навчання після відкритого пошуку агентом Perplexity, заснований на моделі Qwen3.5, перевищує GPT-5.4 за точністю та вартістю
Згідно з моніторингом Beating, команда дослідження Perplexity опублікувала технічну статтю, в якій розкрила процес додаткового навчання свого пошукового агента. Цей процес базується на відкритій моделі Qwen3.5-122B-A10B та Qwen3.5-397B-A17B, і використовує двоступеневу схему: спочатку з допомогою контролюваного тонкого налаштування (SFT) створюються необхідні для розгортання поведінки, такі як дотримання інструкцій та мовна узгодженість, потім за допомогою онлайн-стратегії підкріпленого навчання (RL) оптимізується точність пошуку та ефективність використання інструментів.
На етапі RL використовується алгоритм GRPO, а дані для тренування складаються з двох частин: по-перше, синтезований внутрішньою командою багатоступеневий набір даних для перевіряємих відповідей, який починається з внутрішнього запиту, і через побудову ланцюжка сутностей створює питання з 2-4 кроками логіки, а відповіді перевіряються кількома незалежними розв’язувачами на унікальність; по-друге, універсальні діалогові дані на основі критеріїв оцінювання (rubric), які перетворюють вимоги до дотримання інструкцій, форматування тощо у об’єктивно перевіряємі атомарні умови, що використовуються на етапі RL для запобігання деградації поведінки, сформованої на SFT.
Ключовий аспект дизайну винагороди — гейтований агрегат: лише у разі правильності базової відповіді (відповідь відповідає запиту або всі критерії оцінювання виконані) перевага враховується при підрахунку балів, щоб запобігти приховуванню фактичних помилок сильним сигналом переваги. Заохочення за ефективність застосовує внутрішнє закріплення у групі, базуючись на правильних відповідях у цій же групі, і застосовує плавне штрафування для перевищення кількості викликів інструментів та довжини генерованих відповідей.
Оцінки показують, що після додаткового навчання модель Qwen3.5-397B-SFT-RL демонструє найкращі результати на кількох пошукових бенчмарках. На FRAMES вона досягає 57.3% при одному виклику інструменту, що на 5.7 відсоткових пунктів більше за GPT-5.4 та на 4.7 — за Sonnet 4.6. При середньому бюджеті (4 виклики інструментів) показник становить 73.9%, а вартість запиту — 2.0 цента США; за аналогічних умов GPT-5.4 має 67.8% / 8.5 цента, а Sonnet 4.6 — 62.4% / 15.3 цента. Вартісні дані розраховані за публічною ціною API кожного виробника, без урахування кешування.