Фьючерсы
Доступ к сотням фьючерсов
CFD
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
Промоакции
Участвуйте и получайте награды
Реферал
20 USDT
Приглашайте друзей за бонусы
Партнерская программа
Эксклюзивные комиссионные
Gate Booster
Растите влияние и получайте аирдроп
Анонсы
Обновления в реальном времени
Блог Gate
Статьи о криптоиндустрии
VIP-услуги
Огромные скидки на комиссии
Управление активами
Универсальное решение для управления активами
Институциональный
Крипто-решения для бизнеса
Разработчикам (API)
Подключение к экосистеме приложений Gate
Внебиржевые банковские переводы
Ввод и вывод фиатных денег
Брокерская программа
Щедрые механизмы скидок API
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Huawei and USTC jointly break NVIDIA's monopoly, Ascend A3 accelerates large model expert computation speed by 58%
Однако большинство популярных фреймворков для больших моделей основаны на экосистеме CUDA от Nvidia, и при переносе их на платформу Ascend возникают сложности, такие как неравномерное распределение очередей аппаратного обеспечения и низкая эффективность использования вычислительных ресурсов.
Совместно с Университетом Китая, Huawei и Пекинским университетом был представлен фреймворк для компиляции и планирования HyperParallel-MoE, который ориентирован на уникальные аппаратные очереди A3 Ascend и осуществляет управление на уровне плиток (tile-level), чтобы преодолеть энергетические узкие места при параллельном планировании разнородных вычислительных ресурсов.
A3 Ascend имеет два типа ядер: AIC отвечает за матричное умножение, а AIV занимается векторными вычислениями и коммуникациями.
Однако при традиционном последовательном планировании операторов эти два типа ядер работают по очереди, что ведет к простоям.
Практические данные показывают, что при запуске крупной модели DeepSeek объемом 671 миллиард на кластере из 256 узлов использование AIC составляет всего 67%, а 39% задержек при маршрутизации экспертов и коммуникациях проявляются на критических путях вычислений.
Основные изменения в HyperParallel-MoE включают три пункта.
Первое — разработка односторонней команды записи, управляемой AIV, которая инициирует вычисление сразу после получения данных плитки, без ожидания полной партии.
Второе — внедрение генерации задач плиток с учетом зависимостей, объединяющей коммуникационные и вычислительные операторы в единое абстрактное представление.
Третье — использование статического планировщика для предварительного формирования последовательности задач, позволяющего одновременно управлять двумя типами ядер внутри одного ядра (kernel), а также использовать быстрый кэш L2 для обмена промежуточными результатами, что снижает задержки при записи и чтении из медленной памяти HBM.
Тестирование показало, что при балансировке маршрутов на 64 узлах задержка модуля, отвечающего за вычисления экспертов (MoE-FFN), сократилась примерно на 36%, что соответствует увеличению скорости обработки данных до 58% (ускорение в 1.49–1.58 раза).
В полном цикле обучения скорость одноступенчатого процесса также выросла на 8–9%.
Это свидетельствует о том, что реальная эффективность Ascend зависит не только от аппаратных характеристик, но и от того, насколько хорошо компилятор и среда выполнения могут эффективно управлять ядрами AIC и AIV.