Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Launchpad
Будьте першими в наступному великому проекту токенів
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Ні Я Ю: Орієнтуючись на інтелектуальні застосунки на стороні пристрою, GuoKeWei створює більш ефективний NPU та інструментарій
(Джерело: AijiMicro)
1 квітня на 2026 China IC Leaders Summit «Вертикальний технічний форум “Edge AI та обчислювальні чипи”» міністр з відділу AI-алгоритмів у Guokewei Ні Яюй виголосив тематичну промову під назвою «FlashAttention-4: дизайн парадигми NPU-конвеєра для виведення новим поколінням великих моделей».
Оскільки великі моделі дедалі швидше переходять до промислового впровадження, ефективність виведення, пропускна здатність пам’яті та системне енергоспоживання стають ключовими вузькими місцями для розгортання на пристроях. Особливо на тлі безперервної еволюції Transformer і великих мовних моделей, ефективна реалізація механізму уваги (Attention) уже стала важливим проривом в оптимізації чипної архітектури та інструментального ланцюга.
Ні Яюй зазначив, що Guokewei зосереджується на впровадженні передових технологій на кшталт FlashAttention на платформі NPU, просуває побудову архітектури NPU та інструментального ланцюга, більш придатних для серійного розгортання на пристроях, і забезпечує високопродуктивну обчислювальну підтримку для сценаріїв на кшталт автоматизованого водіння, edge computing, інтелектуальних кінцевих пристроїв і AIGC.
NPU-розгортання «повнокомплектної» FlashAttention усе ще стикається з викликами
Як одна з ключових обчислювальних структур у великих моделях, механізм уваги під час реального виконання повсюдно стикається з проблемами високих витрат на доступ до пам’яті та обмеженої ефективності конвеєра. Запропонований FlashAttention дає новий шлях для вирішення цієї проблеми.
FlashAttention — це алгоритм точного уваги, швидкий і пам’яті-ефективний, який у 2022 році запропонували Tri Dao та інші зі Стенфордського університету. Він забезпечує еквівалентне перетворення процесу обчислення уваги: через блочні обчислення, онлайн-Softmax, рекомп’ютинг (перерахунок) і асинхронний конвеєр — проміжні обчислення зберігаються в кеші на кристалі, зменшуючи тиск на пропускну здатність доступів до зовнішньої пам’яті, і суттєво підвищуючи ефективність виведення.
У середині березня, що щойно минув, офіційно було випущено версію FlashAttention 4.0. Ні Яюй вказав, що FlashAttention еволюціонував від 1.0 до 4.0, і впродовж цього часу його можливості послідовно посилювалися в напрямі паралельності, підтримки довгих послідовностей, обчислень з низькою точністю та асинхронного виконання. Але порівняно з GPU, нинішній NPU все ще має розрив у можливостях векторних блоків, розміщенні асинхронного конвеєра, динамічному диспетчеризуванні та наддовгому контексті. Ні Яюй зазначив, що для досягнення «повнокомплектної» FlashAttention потрібна скоординована конструкція навколо обчислювального конвеєра, повторного використання даних і системної пропускної здатності.
Guokewei NPU 4.0: побудова більш ефективного блоку виведення
Починаючи з 2020 року, Guokewei постійно інвестує в власну розробку NPU, сформувавши еволюційний маршрут від GKNPU 1.0 до 4.0: нарощування продуктоздатності в напрямі більшої обчислювальної потужності, ширшого покриття моделей і покращення співвідношення ефективність/енергоспоживання. Наразі AI-візійні та автомобільні серії чипів Guokewei вже оснащено NPU версії 3.0, які підтримують обчислювальну потужність від 0.5T до 8T та застосування на кінцевих пристроях AI-моделей для зору, аудіо, часових рядів тощо.
У проєктуванні архітектури GKNPU 4.0, Guokewei запропонував посилену пульсуючу масивну архітектуру для ефективних обчислень уваги, цілеспрямовано розширюючи можливості матричних і векторних обчислень, посилюючи підтримку ключових операцій у механізмі уваги великих моделей, стискуючи траєкторії перенесення даних і витрати конвеєра, а також розширюючи можливості замкненого циклу обчислень на кристалі. Цей дизайн спрямований на зменшення залежності від зовнішньої пропускної здатності, підвищення ефективності виконання ланцюга виведення та ефективне подолання вузьких місць пропускної здатності під час виведення великих моделей, тиску пам’яті через фрагментацію активаційних значень і проблем із наддовгим контекстом.
Підсилення інструментального ланцюга, просування ефективного масштабного розгортання
Паралельно з еволюцією архітектури NPU, Guokewei постійно посилює можливості інструментального ланцюга. Нове покоління GKToolchain 3.0 орієнтоване на сценарії гетерогенних обчислювальних полів на кінцевих пристроях; воно зосереджується на суттєвому підвищенні можливостей апаратного сприйняття й компіляції, автоматичного розбиття, автоматичної векторизації, асинхронних операцій читання/запису даних та компонування обчислювального конвеєра, просуваючи розгортання моделей від «пристосовуваності» до «високої ефективності та масштабованості».
Також інструментальний ланцюг продовжує еволюціонувати в напрямі передових тем на кшталт динамічного керування пам’яттю та пришвидшення виведення через спекулятивні техніки, посилюючи підтримку керування довгим контекстом і складними процесами виведення, допомагаючи клієнтам ефективно завершувати замкнений цикл розгортання — від моделі до чипа.
Оскільки застосування AI переходить від сторони тренування до сторони виведення, а також від хмари до кінцевих пристроїв, вимоги індустрії до платформ обчислювальної потужності зміщуються з «пікової продуктивності» в бік «високої енергоефективності, придатності до серійного виробництва та простоти розгортання» як комплексних можливостей. NPU має суттєві переваги за вартістю та енергоспоживанням під час масштабованого впровадження на кінцевих пристроях.
Ні Яюй зазначив, що Guokewei надалі дотримуватиметься принципу узгоджених інновацій алгоритмів і апаратного забезпечення: у межах ключових вузьких місць виведення великих моделей постійно вдосконалюватиме архітектуру NPU, продуктоздатність і систему інструментального ланцюга, просуваючи еволюцію інтелектуальних обчислювальних платформ на кінцевих пристроях у бік вищої продуктивності, нижчого енергоспоживання та більш сильного інженерного впровадження, щоб надавати клієнтам конкурентоспроможніші рішення щодо обчислювальної потужності.
Масив новин і точний розбір — усе в застосунку Sina Finance APP