Futuros
Aceda a centenas de contratos perpétuos
TradFi
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
Pre-IPOs
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
A face oculta da Lua lança FlashKDA de código aberto, Kimi Linear aumenta a velocidade de inferência de 1,7 a 2,2 vezes
Notícias ME, 22 de abril (UTC+8), de acordo com a monitorização do Beating, o lado obscuro da lua lançou no GitHub o FlashKDA, uma ferramenta especialmente para acelerar a inferência de modelos com placas gráficas Nvidia Hopper (H100, H20, etc.), sob licença MIT. O seu alvo é o KDA, uma nova mecânica de atenção apresentada no artigo Kimi Linear no ano passado. Quando grandes modelos leem textos longos, o cálculo da atenção tradicional aumenta com o quadrado do comprimento, enquanto a atenção linear reduz esse custo para crescimento linear; o KDA é uma versão aprimorada dessa abordagem. A estrutura do modelo Kimi Linear consiste em 3 camadas de KDA intercaladas com uma camada de atenção tradicional. Antes, já existia uma versão escrita em Triton, disponível na biblioteca de código aberto flash-linear-attention (fla). O FlashKDA foi reescrito usando a biblioteca GPU de baixo nível da Nvidia, CUTLASS, especialmente para extrair o máximo desempenho das placas Hopper. Testado oficialmente na H20, numa única passagem de inferência, o FlashKDA é de 1,7 a 2,2 vezes mais rápido que a versão Triton, com melhorias notáveis em cenários com comprimentos de entrada variados e processamento em lotes. No entanto, a comparação oficial foi apenas com a versão Triton, sem comparação com outras soluções de atenção linear. Esta versão disponibiliza apenas a inferência direta, ou seja, apenas para “executar o modelo” (inferência), não para “treinar o modelo”; o treinamento ainda deve usar a versão Triton original. Requisitos de uso: placa Nvidia Hopper ou superior (arquitetura SM90), CUDA 12.9 ou superior, PyTorch 2.4 ou superior. O FlashKDA foi também integrado como um novo backend na versão principal do fla (PR #852), e os usuários antigos podem migrar com uma única alteração na configuração. (Fonte: BlockBeats)