Ні Я Ю: Орієнтуючись на інтелектуальні застосунки на стороні пристрою, GuoKeWei створює більш ефективний NPU та інструментарій

robot
Генерація анотацій у процесі

Покупка акцій — дивіться аналітичні звіти аналітиків Golden Qilin: авторитетно, професійно, вчасно, всеосяжно — допоможе вам розкрити потенційні теми й можливості!

(Джерело: AijiMicro)

1 квітня на 2026 China IC Leaders Summit «Вертикальний технічний форум “Edge AI та обчислювальні чипи”» міністр з відділу AI-алгоритмів у Guokewei Ні Яюй виголосив тематичну промову під назвою «FlashAttention-4: дизайн парадигми NPU-конвеєра для виведення новим поколінням великих моделей».

Оскільки великі моделі дедалі швидше переходять до промислового впровадження, ефективність виведення, пропускна здатність пам’яті та системне енергоспоживання стають ключовими вузькими місцями для розгортання на пристроях. Особливо на тлі безперервної еволюції Transformer і великих мовних моделей, ефективна реалізація механізму уваги (Attention) уже стала важливим проривом в оптимізації чипної архітектури та інструментального ланцюга.

Ні Яюй зазначив, що Guokewei зосереджується на впровадженні передових технологій на кшталт FlashAttention на платформі NPU, просуває побудову архітектури NPU та інструментального ланцюга, більш придатних для серійного розгортання на пристроях, і забезпечує високопродуктивну обчислювальну підтримку для сценаріїв на кшталт автоматизованого водіння, edge computing, інтелектуальних кінцевих пристроїв і AIGC.

NPU-розгортання «повнокомплектної» FlashAttention усе ще стикається з викликами

Як одна з ключових обчислювальних структур у великих моделях, механізм уваги під час реального виконання повсюдно стикається з проблемами високих витрат на доступ до пам’яті та обмеженої ефективності конвеєра. Запропонований FlashAttention дає новий шлях для вирішення цієї проблеми.

FlashAttention — це алгоритм точного уваги, швидкий і пам’яті-ефективний, який у 2022 році запропонували Tri Dao та інші зі Стенфордського університету. Він забезпечує еквівалентне перетворення процесу обчислення уваги: через блочні обчислення, онлайн-Softmax, рекомп’ютинг (перерахунок) і асинхронний конвеєр — проміжні обчислення зберігаються в кеші на кристалі, зменшуючи тиск на пропускну здатність доступів до зовнішньої пам’яті, і суттєво підвищуючи ефективність виведення.

У середині березня, що щойно минув, офіційно було випущено версію FlashAttention 4.0. Ні Яюй вказав, що FlashAttention еволюціонував від 1.0 до 4.0, і впродовж цього часу його можливості послідовно посилювалися в напрямі паралельності, підтримки довгих послідовностей, обчислень з низькою точністю та асинхронного виконання. Але порівняно з GPU, нинішній NPU все ще має розрив у можливостях векторних блоків, розміщенні асинхронного конвеєра, динамічному диспетчеризуванні та наддовгому контексті. Ні Яюй зазначив, що для досягнення «повнокомплектної» FlashAttention потрібна скоординована конструкція навколо обчислювального конвеєра, повторного використання даних і системної пропускної здатності.

Guokewei NPU 4.0: побудова більш ефективного блоку виведення

Починаючи з 2020 року, Guokewei постійно інвестує в власну розробку NPU, сформувавши еволюційний маршрут від GKNPU 1.0 до 4.0: нарощування продуктоздатності в напрямі більшої обчислювальної потужності, ширшого покриття моделей і покращення співвідношення ефективність/енергоспоживання. Наразі AI-візійні та автомобільні серії чипів Guokewei вже оснащено NPU версії 3.0, які підтримують обчислювальну потужність від 0.5T до 8T та застосування на кінцевих пристроях AI-моделей для зору, аудіо, часових рядів тощо.

У проєктуванні архітектури GKNPU 4.0, Guokewei запропонував посилену пульсуючу масивну архітектуру для ефективних обчислень уваги, цілеспрямовано розширюючи можливості матричних і векторних обчислень, посилюючи підтримку ключових операцій у механізмі уваги великих моделей, стискуючи траєкторії перенесення даних і витрати конвеєра, а також розширюючи можливості замкненого циклу обчислень на кристалі. Цей дизайн спрямований на зменшення залежності від зовнішньої пропускної здатності, підвищення ефективності виконання ланцюга виведення та ефективне подолання вузьких місць пропускної здатності під час виведення великих моделей, тиску пам’яті через фрагментацію активаційних значень і проблем із наддовгим контекстом.

Підсилення інструментального ланцюга, просування ефективного масштабного розгортання

Паралельно з еволюцією архітектури NPU, Guokewei постійно посилює можливості інструментального ланцюга. Нове покоління GKToolchain 3.0 орієнтоване на сценарії гетерогенних обчислювальних полів на кінцевих пристроях; воно зосереджується на суттєвому підвищенні можливостей апаратного сприйняття й компіляції, автоматичного розбиття, автоматичної векторизації, асинхронних операцій читання/запису даних та компонування обчислювального конвеєра, просуваючи розгортання моделей від «пристосовуваності» до «високої ефективності та масштабованості».

Також інструментальний ланцюг продовжує еволюціонувати в напрямі передових тем на кшталт динамічного керування пам’яттю та пришвидшення виведення через спекулятивні техніки, посилюючи підтримку керування довгим контекстом і складними процесами виведення, допомагаючи клієнтам ефективно завершувати замкнений цикл розгортання — від моделі до чипа.

Оскільки застосування AI переходить від сторони тренування до сторони виведення, а також від хмари до кінцевих пристроїв, вимоги індустрії до платформ обчислювальної потужності зміщуються з «пікової продуктивності» в бік «високої енергоефективності, придатності до серійного виробництва та простоти розгортання» як комплексних можливостей. NPU має суттєві переваги за вартістю та енергоспоживанням під час масштабованого впровадження на кінцевих пристроях.

Ні Яюй зазначив, що Guokewei надалі дотримуватиметься принципу узгоджених інновацій алгоритмів і апаратного забезпечення: у межах ключових вузьких місць виведення великих моделей постійно вдосконалюватиме архітектуру NPU, продуктоздатність і систему інструментального ланцюга, просуваючи еволюцію інтелектуальних обчислювальних платформ на кінцевих пристроях у бік вищої продуктивності, нижчого енергоспоживання та більш сильного інженерного впровадження, щоб надавати клієнтам конкурентоспроможніші рішення щодо обчислювальної потужності.

Масив новин і точний розбір — усе в застосунку Sina Finance APP

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Популярні активності Gate Fun

    Дізнатися більше
  • Рин. кап.:$2.24KХолдери:1
    0.00%
  • Рин. кап.:$2.24KХолдери:0
    0.00%
  • Рин. кап.:$2.23KХолдери:1
    0.00%
  • Рин. кап.:$2.24KХолдери:1
    0.00%
  • Рин. кап.:$0.1Холдери:0
    0.00%
  • Закріпити