A notícia da ME News relata que o FlashKDA é uma ferramenta de código aberto para aceleração de inferência voltada para NVIDIA Hopper, sob licença MIT, focada na atenção KDA do Kimi Linear. Reescrita usando CUTLASS, a inferência direta no Hopper é aproximadamente 1,7 a 2,2 vezes mais rápida do que na versão Triton, adequada para entradas de comprimento variável e cenários em lote. Apoia apenas inferência direta, o treinamento ainda utiliza Triton. Requisitos de hardware: Hopper+, CUDA 12.9, PyTorch 2.4+; já integrado ao upstream do fla (PR #852), a troca requer apenas uma linha de configuração.

MeNews

2026-04-22 02:01:40

Geração de resumo em curso

Notícias ME, 22 de abril (UTC+8), de acordo com a monitorização do Beating, o lado obscuro da lua lançou no GitHub o FlashKDA, uma ferramenta especialmente para acelerar a inferência de modelos com placas gráficas Nvidia Hopper (H100, H20, etc.), sob licença MIT. O seu alvo é o KDA, uma nova mecânica de atenção apresentada no artigo Kimi Linear no ano passado. Quando grandes modelos leem textos longos, o cálculo da atenção tradicional aumenta com o quadrado do comprimento, enquanto a atenção linear reduz esse custo para crescimento linear; o KDA é uma versão aprimorada dessa abordagem. A estrutura do modelo Kimi Linear consiste em 3 camadas de KDA intercaladas com uma camada de atenção tradicional. Antes, já existia uma versão escrita em Triton, disponível na biblioteca de código aberto flash-linear-attention (fla). O FlashKDA foi reescrito usando a biblioteca GPU de baixo nível da Nvidia, CUTLASS, especialmente para extrair o máximo desempenho das placas Hopper. Testado oficialmente na H20, numa única passagem de inferência, o FlashKDA é de 1,7 a 2,2 vezes mais rápido que a versão Triton, com melhorias notáveis em cenários com comprimentos de entrada variados e processamento em lotes. No entanto, a comparação oficial foi apenas com a versão Triton, sem comparação com outras soluções de atenção linear. Esta versão disponibiliza apenas a inferência direta, ou seja, apenas para “executar o modelo” (inferência), não para “treinar o modelo”; o treinamento ainda deve usar a versão Triton original. Requisitos de uso: placa Nvidia Hopper ou superior (arquitetura SM90), CUDA 12.9 ou superior, PyTorch 2.4 ou superior. O FlashKDA foi também integrado como um novo backend na versão principal do fla (PR #852), e os usuários antigos podem migrar com uma única alteração na configuração. (Fonte: BlockBeats)

KDA2%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
Gate13thAnniversaryLive
791.55K Popularidade
#
WCTCTradingChallengeShare8MUSDT
752.91K Popularidade
#
BitcoinBouncesBack
183.84K Popularidade
#
IsraelStrikesIranBTCPlunges
30.62K Popularidade
#
USIranTalksProgress
560.42K Popularidade

Fixar

A face oculta da Lua lança FlashKDA de código aberto, Kimi Linear aumenta a velocidade de inferência de 1,7 a 2,2 vezes

Tópicos em destaque

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

USIranTalksProgress

Fixar