Ni Ya Yu: Para aplicações inteligentes no lado do dispositivo, Guoke Micro desenvolve NPU mais eficiente e cadeia de ferramentas

robot
Geração de resumo em curso

Ao investir em ações, é só ver os relatórios de análise dos analistas do Golden Qilin. Autoritários, profissionais, atempados, completos — ajude-o a descobrir oportunidades temáticas com potencial!

(Fonte: AiJiWei)

No dia 1 de abril, no fórum técnico vertical “AI de Limiar e Chips de Computação” da 2026 China IC Leaders Summit, Ni Ya-yu, diretor do departamento de algoritmos de IA da GuoKeWei, proferiu uma apresentação intitulada “FlashAttention-4: Design do paradigma da pipeline de inferência NPU para a nova geração de modelos de grande escala”.

À medida que os modelos de grande escala aceleram a sua implementação na indústria, a eficiência da inferência, a largura de banda da memória e o consumo de energia do sistema tornam-se os principais gargalos na implementação no dispositivo. Em particular, no contexto da evolução contínua de Transformers e de grandes modelos de linguagem, a implementação eficiente do mecanismo de atenção (Attention) tornou-se uma grande突破 importante para a otimização da arquitetura de chips e da cadeia de ferramentas.

Ni Ya-yu afirmou que a GuoKeWei está a concentrar-se na exploração de implementação de tecnologias de ponta como a FlashAttention em plataformas NPU, promovendo a construção de uma arquitetura NPU e de uma cadeia de ferramentas mais adequadas para produção em massa e deployment no dispositivo, fornecendo suporte de computação de alto desempenho para cenários como condução automática, computação de limiar, terminais inteligentes e AIGC.

A FlashAttention “full-power” no deployment NPU ainda enfrenta desafios

Como uma das estruturas de computação centrais nos modelos de grande escala, o mecanismo de atenção enfrenta de forma generalizada problemas como custos elevados de acesso a memória e limitações na eficiência do pipeline durante a execução real. A proposta da FlashAttention fornece um novo caminho para resolver este problema.

A FlashAttention é um algoritmo de atenção precisa e rápida, com elevada eficiência de memória, proposto em 2022 por Tri Dao e outros da Universidade de Stanford. Através de uma reestruturação equivalente do processo de cálculo da atenção, como cálculos em blocos, Softmax em linha, recomputação e pipelines assíncronos, o processo de cálculo intermédio é mantido em cache na própria placa, reduzindo a pressão sobre a largura de banda de acesso à memória externa, melhorando significativamente a eficiência da inferência.

Em meados de março, agora mesmo, a versão 4.0 da FlashAttention foi oficialmente lançada. Ni Ya-yu indicou que, da evolução da FlashAttention de 1.0 para 4.0, foram continuamente reforçados aspetos como paralelismo, suporte para sequências longas, cálculos de baixa precisão e execução assíncrona. Contudo, em comparação com a GPU, as capacidades atuais da NPU ainda apresentam diferenças em unidades vetoriais de desempenho computacional, escalonamento de pipelines assíncronos, escalonamento dinâmico e contextos extremamente longos. Ni Ya-yu salientou que, para alcançar uma FlashAttention “full-power”, é necessário um design coordenado em torno do pipeline de computação, da reutilização de dados e da largura de banda do sistema.

GuoKeWei NPU 4.0: Construção de unidades de inferência mais eficientes

Desde 2020, a GuoKeWei tem investido continuamente no desenvolvimento autónomo de NPU, formando uma linha de evolução de GKNPU 1.0 até 4.0, com a melhoria das capacidades do produto em direção a maior desempenho computacional, maior cobertura de modelos e uma melhor relação entre desempenho e eficiência energética. Atualmente, os chips das séries de IA visual e de IA automóvel da GuoKeWei já integram NPU versão 3.0, suportando computação de 0,5T a 8T, e suportando a implementação em dispositivos de modelos de IA como visão, áudio e séries temporais.

No design da arquitetura GKNPU 4.0, a GuoKeWei propôs uma arquitetura de matriz de pulso melhorada para computação eficiente de atenção, expandindo de forma direcionada as capacidades de cálculo de matrizes e vetores, reforçando o suporte às operações-chave no mecanismo de atenção dos modelos de grande escala, comprimindo as rotas de transporte de dados e os custos do pipeline, e fortalecendo a capacidade de computação em circuito fechado na placa. Este design pretende reduzir a dependência de largura de banda externa, melhorar a eficiência de execução da cadeia de inferência e responder de forma eficaz aos gargalos de largura de banda, à fragmentação dos valores de ativação e à pressão de memória do contexto extremamente longo na inferência de modelos de grande escala.

Fortalecer a cadeia de ferramentas e promover uma implementação eficiente em escala

Paralelamente à evolução da arquitetura da NPU, a GuoKeWei tem reforçado continuamente as capacidades da cadeia de ferramentas. A nova geração GKToolchain 3.0, direcionada para cenários de computação heterogénea no dispositivo, foca-se em melhorar as capacidades de compilação com perceção de hardware, divisão automática, vetorização automática, leitura e escrita assíncrona de dados e orquestração de pipelines de computação, promovendo a passagem da implementação de modelos de “ajustável” para “alta eficiência e escalável”.

Ao mesmo tempo, a cadeia de ferramentas continua a evoluir em direções de ponta como gestão dinâmica de memória e aceleração de inferência especulativa, aumentando as capacidades de suporte à gestão de contextos longos e a processos de inferência complexos, ajudando os clientes a concluir de forma eficiente o ciclo fechado de deployment de modelo para chip.

À medida que as aplicações de IA passam do lado do treino para o lado da inferência e da nuvem para os terminais, as exigências da indústria para plataformas de computação estão a mudar de “alto desempenho de pico” para capacidades abrangentes como “alta eficiência energética, produção em massa e fácil deployment”. A NPU tem vantagens significativas em custo e consumo de energia na implementação em escala no dispositivo.

Ni Ya-yu afirmou que a GuoKeWei continuará a manter a inovação cooperativa entre algoritmos e hardware, em torno dos gargalos centrais da inferência de modelos de grande escala, aperfeiçoando continuamente a arquitetura da NPU, as capacidades do produto e o sistema da cadeia de ferramentas, promovendo a evolução da plataforma de computação inteligente no dispositivo rumo a maior desempenho, menor consumo de energia e maior viabilidade de implementação em engenharia, fornecendo aos clientes soluções de computação mais competitivas.

Notícias em grande volume e interpretações precisas — tudo na APP da Sina Finance

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar