Фьючерсы
Доступ к сотням фьючерсов
CFD
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
Промоакции
Участвуйте и получайте награды
Реферал
20 USDT
Приглашайте друзей за бонусы
Партнерская программа
Эксклюзивные комиссионные
Gate Booster
Растите влияние и получайте аирдроп
Анонсы
Обновления в реальном времени
Блог Gate
Статьи о криптоиндустрии
VIP-услуги
Огромные скидки на комиссии
Управление активами
Универсальное решение для управления активами
Институциональный
Крипто-решения для бизнеса
Разработчикам (API)
Подключение к экосистеме приложений Gate
Внебиржевые банковские переводы
Ввод и вывод фиатных денег
Брокерская программа
Щедрые механизмы скидок API
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Тёмная сторона Луны и новая статья Тяньцзиньского университета: Предварительная подготовка LLM может осуществляться между дата-центрами, пропускная способность модели на 1Т увеличилась на 54%
Большие модели для вывода делятся на два этапа: prefill — предварительно считывает входные данные и создает кеш KV; decode — по этому кешу по символам выводит результат.
Для этих двух этапов требуются совершенно разные аппаратные характеристики: prefill требует вычислительных ресурсов, decode — памяти и пропускной способности памяти видеокарты.
Основной подход в индустрии — разделение этих двух этапов на разные машины (PD разделение), но это требует соединения через RDMA внутри одного дата-центра, поскольку кеш KV для моделей с интенсивным вниманием генерируется со скоростью десятки Гбит/с, и при замедлении передачи GPU простаивает.
Поворот произошел благодаря новому поколению гибридных моделей внимания.
В эксперименте в статье модели Kimi Linear, MiMo-V2-Flash, Ring-2.5-1T и другие, объединяя немного полных слоев внимания с множеством линейных слоев, снизили пропускную способность кеша KV примерно в десять раз, а у Ring-2.5-1T достигнут общий коэффициент сжатия 36 раз.
Теперь кеш KV можно переносить с RDMA выделенной сети на обычную Ethernet-сеть для передачи.
Конкретная реализация PrfaaS: создается отдельный «кластер предварительного заполнения», в который маршрутизируются только запросы с длинным контекстом и непопавшие в кеш префиксы, короткие запросы остаются в локальном PD-кластере; после завершения предварительного заполнения кеш KV передается по Ethernet обратно в локальный кластер для decode.
Внедряются маршрутизация по порогам длины, датчики пропускной способности и гибридный кеш префиксов.
В статье проведены эксперименты с внутренней моделью hybrid на 1T параметров (на базе архитектуры Kimi Linear), и общая пропускная способность сервиса оказалась на 54% выше при однородной PD-развертке и на 32% выше по сравнению с простым гибридным решением, при этом каждое устройство использует умеренную пропускную способность междатацентровой передачи.
(Источник: BlockBeats)