Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Launchpad
Будьте готовы к следующему крупному токен-проекту
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Cursor опубликовал технологию оптимизации MoE inference Warp Decode, увеличив пропускную способность на GPU Blackwell в 1.84 раза
Согласно мониторингу 1M AI News, AI-инструмент для программирования Cursor опубликовал технический блог, в котором представил собственный метод ускорения вывода MoE (модели «смешанных экспертов») — Warp Decode. Этот метод ориентирован на сценарии генерации небольшими партиями token на GPU Nvidia Blackwell и переворачивает традиционную параллельную стратегию, центрированную вокруг экспертов, на стратегию, центрированную вокруг результата: каждый warp (минимальная единица планирования, состоящая из 32 параллельных вычислительных единиц) в GPU отвечает лишь за вычисление одного выходного значения, независимо обходит все эксперты, к которым выполняется маршрутизация, и выполняет суммирование в регистрах, без необходимости в какой-либо синхронизации между warp и без промежуточных буферов.
Традиционный MoE-конвейер вывода состоит из 8 стадий, из которых 5 предназначены только для переноса данных для экспертных представлений и не выполняют реальные вычисления. Warp Decode сжимает весь слой вычислений MoE до 2 CUDA kernel, устраняя промежуточные шаги вроде заполнения, разбрасывания, объединения и т. п. В результате для каждого token сокращается чтение/запись промежуточных буферов более чем на 32KB.
По результатам практических испытаний на GPU Nvidia B200 с моделью в стиле Qwen-3, Warp Decode обеспечивает прирост 1.84 раза по сквозной декодирующей пропускной способности, а также благодаря тому, что вычисления выполняются на протяжении всего процесса с точностью BF16/FP32 и избегаются потери, возникающие при промежуточном квантовании, точность вывода оказывается близка к 1.4 раза превосходящей традиционный путь по сравнению с базовой точностью FP32. Что касается использования аппаратной пропускной способности: при размере батча 32 постоянная пропускная способность достигает 3.95 TB/s, что составляет около 58% от пикового значения пропускной способности B200 (6.8 TB/s). Эта оптимизация напрямую ускоряет цикл разработки и частоту релизов разрабатываемой собственными силами программной модели Cursor Composer.