Ф'ючерси
Сотні безстрокових контрактів
CFD
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
CFD
CFD-деривативи на акції США
Акції США
Отримайте доступ до реальних акцій США та ETF
Акції Гонконгу
Торгуйте якісними акціями з лістингом у Гонконгу
Корейські акції
SK Hynix
Торгуйте реальними корейськими акціями та інвестуйте в популярні активи
Ф'ючерси на акції
Високе кредитне плече, торгівля 24/7
Токенізовані акції
Забезпечено реальними фондовими активами
IPO Access
Отримайте повний доступ до глобальних IPO акцій
GUSD
Мінтіть GUSD для отримання дохідності від казначейських RWA
Активності з акціями
Торгуйте популярними акціями та відкривайте щедрі аірдропи
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
IPO Access
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Gate Wealth
візьміть під контроль своє фінансове майбутнє
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
USD1 8% річних
Без блоку, вивід у будь-який час.
Акції
Центр діяльності
Беріть учать та отримуйте винагороди
Реферал
20 USDT
Запрошуйте друзів та отримуйте бонуси
Партнерська програма
Ексклюзивні комісійні винагороди
Gate Booster
Зростайте та отримуйте аірдропи
Оголошення
Оновлення платформи в реальному часі
Блог Gate
Статті про криптоіндустрію
VIP послуги
Величезні знижки на комісії
Управління активами
Універсальне рішення для управління активами
Інституційний
Рішення цифрових активів для бізнесу
Розробники (API)
Підключається до екосистеми додатків Gate
Позабіржовий банківський переказ
Поповнюйте та виводьте фіат
Брокерська програма
Щедрі механізми знижок API
AI
Gate AI
Ваш універсальний AI-помічник для спілкування
Gate AI Bot
Використовуйте Gate AI безпосередньо у своєму соціальному додатку
GateClaw
Gate Блакитний Лобстер — готовий до використання
Gate for AI Agent
AI-інфраструктура, Gate MCP, Skills і CLI
Gate Skills Hub
Понад 10 000 навичок
Від офісу до трейдингу: універсальна база навичок для ефективнішої роботи з AI
Perplexity публічно оприлюднив метод пост-тренування пошукового агента, модель на основі Qwen3.5 перевершує GPT-5.4 за точністю та вартістю.
ME News повідомляє, 23 квітня (UTC+8), за даними моніторингу Beating, дослідницька команда Perplexity опублікувала технічну статтю, в якій розкриває процес посттренування свого веб-пошукового агента.
Цей процес базується на відкритих моделях Qwen3.5-122B-A10B та Qwen3.5-397B-A17B і використовує двоетапну схему: спочатку контрольоване донавчання (SFT) для встановлення необхідних для розгортання поведінок, таких як виконання інструкцій та мовна узгодженість, а потім онлайн-стратегічне навчання з підкріпленням (RL) для оптимізації точності пошуку та ефективності використання інструментів.
На етапі RL використовується алгоритм GRPO. Тренувальні дані складаються з двох частин: по-перше, власноруч синтезований набір даних багатокрокових верифікованих запитань і відповідей, що починається з внутрішніх початкових запитів, конструює завдання, які потребують 2–4 кроків міркування через ланцюжки сутностей, та верифікує унікальність відповідей за допомогою кількох незалежних вирішувачів; по-друге, універсальні діалогові дані на основі рубрик, які перетворюють вимоги розгортання (виконання інструкцій, обмеження формату тощо) на атомарні умови, що піддаються об'єктивній перевірці, для запобігання регресії поведінки, встановленої SFT на етапі RL.
Основою дизайну винагороди є воротарна агрегація: лише коли базовий рівень є правильним (правильна відповідь на запитання або повне задоволення рубрики), оцінка переваги бере участь у обчисленні, що запобігає маскуванню фактичних помилок сигналами високої переваги. Штраф за ефективність використовує внутрішньогрупове якоріння, базуючись на правильних відповідях у тій самій групі, та застосовує плавний штраф до надмірної кількості викликів інструментів і довжини генерування.
Оцінки показують, що Qwen3.5-397B-SFT-RL після посттренування демонструє найкращі результати на кількох пошукових бенчмарках. На FRAMES з одним викликом інструменту досягає 57.3%, що на 5.7 відсоткових пунктів вище, ніж у GPT-5.4, та на 4.7 відсоткових пункти вище, ніж у Sonnet 4.6. При середньому бюджеті (4 виклики інструменту) досягає 73.9% з вартістю 2.0 центи за запит; за тих самих умов GPT-5.4 має 67.8% / 8.5 центів, а Sonnet 4.6 — 62.4% / 15.3 центи. Дані про вартість розраховано за опублікованими цінами API виробників, без врахування оптимізації кешу.
(Джерело: BlockBeats)