Transformers implementados como circuitos de hardware puros, sin usar GPU, alcanzan 50,000 tokens/segundo

Mensaje de CoinWorld, los desarrolladores Luthira Abeykoon y Krish Chhajer han llevado MicroGPT de Karpathy (solo 4,192 parámetros) a FPGA usando SystemVerilog, logrando una velocidad de generación superior a 50,000 tokens/segundo. El proyecto Talos-V2 (Lógica acelerada por tensor para sistemas en chip) ya está abierto en GitHub, funcionando en un FPGA Intel Cyclone V de nivel educativo en DE1-SOC, con pesos almacenados en ROM en formato de punto fijo Q4.12 en la memoria del chip. La multiplicación matriz-vector en el modelo se implementa como una matriz de pulsos de 16 canales (Systolic Array), la proyección Q/K/V, MLP y la cabeza LM comparten esta unidad, operando por turnos. La implementación del mecanismo de atención requiere dividirse en ocho pasos. Los autores indican que el proyecto tiene como objetivo transformar cada paso de la inferencia del Transformer en hardware visualizable: memoria, contador, máquina de estados y tabla de búsqueda.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado