Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Launchpad
Будьте готовы к следующему крупному токен-проекту
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Ни Яюй: для интеллектуальных приложений на устройстве компания Guokewei создает более эффективные NPU и toolchain
(Источник:爱集微)
1 апреля, на вертикальном техническом форуме «边缘AI与算力芯片» на 2026 中国 IC领袖峰会, министр по AI-алгоритмам компании 国科微 Ни Яюй выступил с докладом на тему《FlashAttention-4:дизайн парадигмы конвейера для выводов NPU нового поколения》。
По мере ускорения перехода больших моделей к промышленному внедрению, ключевыми узкими местами для развертывания на устройствах становятся эффективность вывода, пропускная способность памяти и системное энергопотребление. Особенно на фоне непрерывной эволюции Transformer и больших языковых моделей, эффективная реализация механизма внимания (Attention) стала важным прорывом в оптимизации чип-архитектуры и инструментальной цепочки.
Ни Яюй отметил, что 国科微 сосредоточена на прикладных исследованиях передовых технологий вроде FlashAttention на платформах NPU, продвигая формирование архитектуры NPU и инструментальной цепочки, более подходящих для массового производства и развертывания на устройстве, чтобы обеспечить высокопроизводительную вычислительную поддержку для сценариев, таких как автономное вождение, edge-вычисления, интеллектуальные терминалы и AIGC.
NPU-развертывание «полной версии» FlashAttention по-прежнему сталкивается с вызовами
Как одна из ключевых вычислительных структур в больших моделях, механизм внимания на практике часто сталкивается с проблемами высокой стоимости обращений к памяти, ограниченной эффективностью конвейера и т.п. Появление FlashAttention предоставляет новый путь для решения этой проблемы.
FlashAttention — это точный алгоритм внимания, быстрый и экономичный по памяти, который был предложен в 2022 году такими исследователями, как Tri Dao из Stanford University. Он выполняет эквивалентную реорганизацию процесса вычисления внимания: за счёт блочного вычисления, онлайн-Softmax, перeвычисления и асинхронного конвейера сохраняет промежуточные вычисления в кэше на чипе, снижая давление на пропускную способность при обращениях к внешней памяти, и существенно повышает эффективность вывода.
В конце марта официально была выпущена версия FlashAttention 4.0. Ни Яюй указал, что FlashAttention развивалась от 1.0 до 4.0, и в параллелизме, поддержке длинных последовательностей, вычислениях низкой точности и асинхронном исполнении продолжала наращивать возможности. Однако по сравнению с GPU, в текущих NPU всё ещё сохраняется разрыв в таких способностях, как вычислительная мощность в векторных блоках, компоновка асинхронного конвейера, динамическое планирование и сверхдлинные контексты. Ни Яюй отметил, что для реализации «полной версии» FlashAttention требуется согласованное проектирование вокруг вычислительного конвейера, повторного использования данных и системной пропускной способности.
国科微 NPU 4.0: построение более эффективного вычислительного блока для вывода
Начиная с 2020 года 国科微 постоянно инвестирует в собственную разработку NPU, сформировав маршрут эволюции от GKNPU 1.0 до 4.0; возможности продукта развиваются в сторону большей вычислительной мощности, более широкого покрытия моделей и улучшенного показателя энергоэффективности. На данный момент AI-визуальные и автомобильные AI-серии чипов 国科微 уже используют версию 3.0 NPU, поддерживая вычислительную мощность от 0.5T до 8T, а также поддерживают внедрение на устройствах AI-моделей, включая визуальные, аудиомодели и модели для временных рядов.
В архитектурном проектировании GKNPU 4.0 国科微 предложила усовершенствованную пульсирующую (pulsating) матричную архитектуру, ориентированную на эффективные вычисления внимания. Она предметно расширяет возможности матричных и векторных вычислений, усиливает поддержку ключевых операций в механизме внимания больших моделей, сжимает маршруты переноса данных и накладные расходы конвейера, а также повышает возможности замкнутого вычислительного контура на кристалле. Этот дизайн нацелен на сокращение зависимости от внешней пропускной способности, повышение эффективности выполнения цепочки вывода, а также эффективное противодействие узким местам по пропускной способности при выводе больших моделей, фрагментации активаций и нагрузке по памяти при сверхдлинных контекстах.
Укрепление инструментальной цепочки для продвижения эффективного масштабируемого развёртывания
Наряду с эволюцией архитектуры NPU, 国科微 продолжает укреплять возможности инструментальной цепочки. Новое поколение GKToolchain 3.0 предназначено для сценариев разнородного поля вычислительных мощностей на устройстве; в фокусе — расширение возможностей компиляции с распознаванием аппаратного обеспечения, автоматической разбивки, автоматической векторизации, асинхронного чтения/записи данных и организации вычислительного конвейера, чтобы переводить развертывание моделей от статуса «можно адаптировать» к «высокой эффективности и масштабируемости».
При этом инструментальная цепочка продолжает эволюционировать по передовым направлениям, таким как динамическое управление памятью и ускорение выводов за счёт спекулятивных подходов, усиливая поддержку управления длинными контекстами и сложными процессами вывода, помогая клиентам эффективно завершать замкнутый цикл развертывания от модели до чипа.
По мере того как AI-приложения смещаются от стороны обучения к стороне вывода и от облака к терминалам, требования отрасли к платформам вычислительных мощностей меняются: с «пиковых значений производительности» на комплексные возможности «высокой энергоэффективности, пригодности к массовому производству, простоты развертывания». В масштабируемом внедрении на устройстве NPU демонстрируют существенные преимущества по стоимости и энергопотреблению.
Ни Яюй заявил, что 国科微 будет продолжать придерживаться алгоритмико-аппаратных совместных инноваций, постоянно совершенствуя архитектуру NPU, продуктовые возможности и систему инструментальной цепочки вокруг ключевых узких мест вывода больших моделей, продвигая эволюцию платформы интеллектуальных вычислений на устройствах в сторону более высокой производительности, более низкого энергопотребления и более сильной практической пригодности для инженерного внедрения, чтобы предоставлять клиентам более конкурентоспособные решения по вычислительным мощностям.
Огромные объёмы новостей и точные разъяснения — всё в приложении Sina Finance APP