Transformer transformé en circuit matériel pur, sans utiliser de GPU, pour atteindre 50 000 tokens/sec

CoinWorld消息,开发者Luthira Abeykoon和Krish Chhajer将Karpathy的MicroGPT(仅4,192个参数)用SystemVerilog移植到FPGA上,生成速度超过5万tokens/秒。该项目Talos-V2(用于片上系统的张量加速逻辑)已在GitHub开源,运行于DE1-SOC的Cyclone V教学级Intel FPGA,权重以Q4.12定点格式存储在片上ROM中。模型中的矩阵-向量乘法实现为16通道脉动阵列(Systolic Array),Q/K/V投影、MLP、LM Head共用该单元,轮流运行。注意力机制的实现需拆分为八步。作者表示,项目旨在将Transformer推理的每一步转化为可视化的硬件:存储器、计数器、状态机和查找表。

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler