Futuros
Aceda a centenas de contratos perpétuos
TradFi
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Launchpad
Chegue cedo ao próximo grande projeto de tokens
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Ni Ya Yu: Para aplicações inteligentes no lado do dispositivo, Guoke Micro desenvolve NPU mais eficiente e cadeia de ferramentas
(Fonte: AiJiWei)
No dia 1 de abril, no fórum técnico vertical “AI de Limiar e Chips de Computação” da 2026 China IC Leaders Summit, Ni Ya-yu, diretor do departamento de algoritmos de IA da GuoKeWei, proferiu uma apresentação intitulada “FlashAttention-4: Design do paradigma da pipeline de inferência NPU para a nova geração de modelos de grande escala”.
À medida que os modelos de grande escala aceleram a sua implementação na indústria, a eficiência da inferência, a largura de banda da memória e o consumo de energia do sistema tornam-se os principais gargalos na implementação no dispositivo. Em particular, no contexto da evolução contínua de Transformers e de grandes modelos de linguagem, a implementação eficiente do mecanismo de atenção (Attention) tornou-se uma grande突破 importante para a otimização da arquitetura de chips e da cadeia de ferramentas.
Ni Ya-yu afirmou que a GuoKeWei está a concentrar-se na exploração de implementação de tecnologias de ponta como a FlashAttention em plataformas NPU, promovendo a construção de uma arquitetura NPU e de uma cadeia de ferramentas mais adequadas para produção em massa e deployment no dispositivo, fornecendo suporte de computação de alto desempenho para cenários como condução automática, computação de limiar, terminais inteligentes e AIGC.
A FlashAttention “full-power” no deployment NPU ainda enfrenta desafios
Como uma das estruturas de computação centrais nos modelos de grande escala, o mecanismo de atenção enfrenta de forma generalizada problemas como custos elevados de acesso a memória e limitações na eficiência do pipeline durante a execução real. A proposta da FlashAttention fornece um novo caminho para resolver este problema.
A FlashAttention é um algoritmo de atenção precisa e rápida, com elevada eficiência de memória, proposto em 2022 por Tri Dao e outros da Universidade de Stanford. Através de uma reestruturação equivalente do processo de cálculo da atenção, como cálculos em blocos, Softmax em linha, recomputação e pipelines assíncronos, o processo de cálculo intermédio é mantido em cache na própria placa, reduzindo a pressão sobre a largura de banda de acesso à memória externa, melhorando significativamente a eficiência da inferência.
Em meados de março, agora mesmo, a versão 4.0 da FlashAttention foi oficialmente lançada. Ni Ya-yu indicou que, da evolução da FlashAttention de 1.0 para 4.0, foram continuamente reforçados aspetos como paralelismo, suporte para sequências longas, cálculos de baixa precisão e execução assíncrona. Contudo, em comparação com a GPU, as capacidades atuais da NPU ainda apresentam diferenças em unidades vetoriais de desempenho computacional, escalonamento de pipelines assíncronos, escalonamento dinâmico e contextos extremamente longos. Ni Ya-yu salientou que, para alcançar uma FlashAttention “full-power”, é necessário um design coordenado em torno do pipeline de computação, da reutilização de dados e da largura de banda do sistema.
GuoKeWei NPU 4.0: Construção de unidades de inferência mais eficientes
Desde 2020, a GuoKeWei tem investido continuamente no desenvolvimento autónomo de NPU, formando uma linha de evolução de GKNPU 1.0 até 4.0, com a melhoria das capacidades do produto em direção a maior desempenho computacional, maior cobertura de modelos e uma melhor relação entre desempenho e eficiência energética. Atualmente, os chips das séries de IA visual e de IA automóvel da GuoKeWei já integram NPU versão 3.0, suportando computação de 0,5T a 8T, e suportando a implementação em dispositivos de modelos de IA como visão, áudio e séries temporais.
No design da arquitetura GKNPU 4.0, a GuoKeWei propôs uma arquitetura de matriz de pulso melhorada para computação eficiente de atenção, expandindo de forma direcionada as capacidades de cálculo de matrizes e vetores, reforçando o suporte às operações-chave no mecanismo de atenção dos modelos de grande escala, comprimindo as rotas de transporte de dados e os custos do pipeline, e fortalecendo a capacidade de computação em circuito fechado na placa. Este design pretende reduzir a dependência de largura de banda externa, melhorar a eficiência de execução da cadeia de inferência e responder de forma eficaz aos gargalos de largura de banda, à fragmentação dos valores de ativação e à pressão de memória do contexto extremamente longo na inferência de modelos de grande escala.
Fortalecer a cadeia de ferramentas e promover uma implementação eficiente em escala
Paralelamente à evolução da arquitetura da NPU, a GuoKeWei tem reforçado continuamente as capacidades da cadeia de ferramentas. A nova geração GKToolchain 3.0, direcionada para cenários de computação heterogénea no dispositivo, foca-se em melhorar as capacidades de compilação com perceção de hardware, divisão automática, vetorização automática, leitura e escrita assíncrona de dados e orquestração de pipelines de computação, promovendo a passagem da implementação de modelos de “ajustável” para “alta eficiência e escalável”.
Ao mesmo tempo, a cadeia de ferramentas continua a evoluir em direções de ponta como gestão dinâmica de memória e aceleração de inferência especulativa, aumentando as capacidades de suporte à gestão de contextos longos e a processos de inferência complexos, ajudando os clientes a concluir de forma eficiente o ciclo fechado de deployment de modelo para chip.
À medida que as aplicações de IA passam do lado do treino para o lado da inferência e da nuvem para os terminais, as exigências da indústria para plataformas de computação estão a mudar de “alto desempenho de pico” para capacidades abrangentes como “alta eficiência energética, produção em massa e fácil deployment”. A NPU tem vantagens significativas em custo e consumo de energia na implementação em escala no dispositivo.
Ni Ya-yu afirmou que a GuoKeWei continuará a manter a inovação cooperativa entre algoritmos e hardware, em torno dos gargalos centrais da inferência de modelos de grande escala, aperfeiçoando continuamente a arquitetura da NPU, as capacidades do produto e o sistema da cadeia de ferramentas, promovendo a evolução da plataforma de computação inteligente no dispositivo rumo a maior desempenho, menor consumo de energia e maior viabilidade de implementação em engenharia, fornecendo aos clientes soluções de computação mais competitivas.
Notícias em grande volume e interpretações precisas — tudo na APP da Sina Finance