Ни Яюй: для интеллектуальных приложений на устройстве компания Guokewei создает более эффективные NPU и toolchain

robot
Генерация тезисов в процессе

Если вы торгуете акциями, смотрите аналитические отчёты от аналитиков «金麒麟» — авторитетно, профессионально, своевременно и всесторонне; поможет вам раскрывать темы с потенциалом и находить выгодные возможности!

(Источник:爱集微)

1 апреля, на вертикальном техническом форуме «边缘AI与算力芯片» на 2026 中国 IC领袖峰会, министр по AI-алгоритмам компании 国科微 Ни Яюй выступил с докладом на тему《FlashAttention-4:дизайн парадигмы конвейера для выводов NPU нового поколения》。

По мере ускорения перехода больших моделей к промышленному внедрению, ключевыми узкими местами для развертывания на устройствах становятся эффективность вывода, пропускная способность памяти и системное энергопотребление. Особенно на фоне непрерывной эволюции Transformer и больших языковых моделей, эффективная реализация механизма внимания (Attention) стала важным прорывом в оптимизации чип-архитектуры и инструментальной цепочки.

Ни Яюй отметил, что 国科微 сосредоточена на прикладных исследованиях передовых технологий вроде FlashAttention на платформах NPU, продвигая формирование архитектуры NPU и инструментальной цепочки, более подходящих для массового производства и развертывания на устройстве, чтобы обеспечить высокопроизводительную вычислительную поддержку для сценариев, таких как автономное вождение, edge-вычисления, интеллектуальные терминалы и AIGC.

NPU-развертывание «полной версии» FlashAttention по-прежнему сталкивается с вызовами

Как одна из ключевых вычислительных структур в больших моделях, механизм внимания на практике часто сталкивается с проблемами высокой стоимости обращений к памяти, ограниченной эффективностью конвейера и т.п. Появление FlashAttention предоставляет новый путь для решения этой проблемы.

FlashAttention — это точный алгоритм внимания, быстрый и экономичный по памяти, который был предложен в 2022 году такими исследователями, как Tri Dao из Stanford University. Он выполняет эквивалентную реорганизацию процесса вычисления внимания: за счёт блочного вычисления, онлайн-Softmax, перeвычисления и асинхронного конвейера сохраняет промежуточные вычисления в кэше на чипе, снижая давление на пропускную способность при обращениях к внешней памяти, и существенно повышает эффективность вывода.

В конце марта официально была выпущена версия FlashAttention 4.0. Ни Яюй указал, что FlashAttention развивалась от 1.0 до 4.0, и в параллелизме, поддержке длинных последовательностей, вычислениях низкой точности и асинхронном исполнении продолжала наращивать возможности. Однако по сравнению с GPU, в текущих NPU всё ещё сохраняется разрыв в таких способностях, как вычислительная мощность в векторных блоках, компоновка асинхронного конвейера, динамическое планирование и сверхдлинные контексты. Ни Яюй отметил, что для реализации «полной версии» FlashAttention требуется согласованное проектирование вокруг вычислительного конвейера, повторного использования данных и системной пропускной способности.

国科微 NPU 4.0: построение более эффективного вычислительного блока для вывода

Начиная с 2020 года 国科微 постоянно инвестирует в собственную разработку NPU, сформировав маршрут эволюции от GKNPU 1.0 до 4.0; возможности продукта развиваются в сторону большей вычислительной мощности, более широкого покрытия моделей и улучшенного показателя энергоэффективности. На данный момент AI-визуальные и автомобильные AI-серии чипов 国科微 уже используют версию 3.0 NPU, поддерживая вычислительную мощность от 0.5T до 8T, а также поддерживают внедрение на устройствах AI-моделей, включая визуальные, аудиомодели и модели для временных рядов.

В архитектурном проектировании GKNPU 4.0 国科微 предложила усовершенствованную пульсирующую (pulsating) матричную архитектуру, ориентированную на эффективные вычисления внимания. Она предметно расширяет возможности матричных и векторных вычислений, усиливает поддержку ключевых операций в механизме внимания больших моделей, сжимает маршруты переноса данных и накладные расходы конвейера, а также повышает возможности замкнутого вычислительного контура на кристалле. Этот дизайн нацелен на сокращение зависимости от внешней пропускной способности, повышение эффективности выполнения цепочки вывода, а также эффективное противодействие узким местам по пропускной способности при выводе больших моделей, фрагментации активаций и нагрузке по памяти при сверхдлинных контекстах.

Укрепление инструментальной цепочки для продвижения эффективного масштабируемого развёртывания

Наряду с эволюцией архитектуры NPU, 国科微 продолжает укреплять возможности инструментальной цепочки. Новое поколение GKToolchain 3.0 предназначено для сценариев разнородного поля вычислительных мощностей на устройстве; в фокусе — расширение возможностей компиляции с распознаванием аппаратного обеспечения, автоматической разбивки, автоматической векторизации, асинхронного чтения/записи данных и организации вычислительного конвейера, чтобы переводить развертывание моделей от статуса «можно адаптировать» к «высокой эффективности и масштабируемости».

При этом инструментальная цепочка продолжает эволюционировать по передовым направлениям, таким как динамическое управление памятью и ускорение выводов за счёт спекулятивных подходов, усиливая поддержку управления длинными контекстами и сложными процессами вывода, помогая клиентам эффективно завершать замкнутый цикл развертывания от модели до чипа.

По мере того как AI-приложения смещаются от стороны обучения к стороне вывода и от облака к терминалам, требования отрасли к платформам вычислительных мощностей меняются: с «пиковых значений производительности» на комплексные возможности «высокой энергоэффективности, пригодности к массовому производству, простоты развертывания». В масштабируемом внедрении на устройстве NPU демонстрируют существенные преимущества по стоимости и энергопотреблению.

Ни Яюй заявил, что 国科微 будет продолжать придерживаться алгоритмико-аппаратных совместных инноваций, постоянно совершенствуя архитектуру NPU, продуктовые возможности и систему инструментальной цепочки вокруг ключевых узких мест вывода больших моделей, продвигая эволюцию платформы интеллектуальных вычислений на устройствах в сторону более высокой производительности, более низкого энергопотребления и более сильной практической пригодности для инженерного внедрения, чтобы предоставлять клиентам более конкурентоспособные решения по вычислительным мощностям.

Огромные объёмы новостей и точные разъяснения — всё в приложении Sina Finance APP

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить