Transformers feitos como circuitos de hardware puros, sem usar GPU, alcançam 50.000 tokens/segundo

Notícias do CoinWorld, os desenvolvedores Luthira Abeykoon e Krish Chhajer transferiram o MicroGPT de Karpathy (apenas 4.192 parâmetros) para FPGA usando SystemVerilog, gerando uma velocidade superior a 50.000 tokens por segundo. O projeto Talos-V2 (Lógica Acelerada por Tensor para Sistemas em Chip) já está de código aberto no GitHub, rodando na FPGA Intel Cyclone V de nível educacional DE1-SOC, com pesos armazenados em ROM on-chip no formato de ponto fixo Q4.12. A multiplicação matriz-vetor no modelo é implementada como uma matriz de pulsos de 16 canais (Systolic Array), com projeções Q/K/V, MLP e cabeça LM compartilhando essa unidade, operando alternadamente. A implementação do mecanismo de atenção deve ser dividida em oito etapas. Os autores afirmam que o projeto visa transformar cada passo da inferência do Transformer em hardware visualizável: memória, contador, máquina de estados e tabela de busca.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar