币界网消息,开发者Luthira Abeykoon和Krish Chhajer将Karpathy的MicroGPT(仅4,192个参数)用SystemVerilog搬进FPGA,生成速度超过5万tokens/秒。 该项目Talos-V2(Tensor Accelerated Logic for On-Chip Systems)已在GitHub开源,运行于DE1-SOC的Cyclone V教学级Intel FPGA,权重以Q4.12定点格式存储在片上ROM中。 模型中的矩阵向量乘法实现为16通道脉动阵列(Systolic Array),Q/K/V投影、MLP、LM Head共用该单元,轮流运行。 注意力机制的实现需拆分为八步。 作者表示,项目旨在将Transformer推理的每一步转化为可视化的硬件:存储器、计数器、状态机和查找表。
トランスフォーマーを純粋なハードウェア回路にして、GPUを使わずに5万トークン/秒を実現する
币界网消息,开发者Luthira Abeykoon和Krish Chhajer将Karpathy的MicroGPT(仅4,192个参数)用SystemVerilog搬进FPGA,生成速度超过5万tokens/秒。
该项目Talos-V2(Tensor Accelerated Logic for On-Chip Systems)已在GitHub开源,运行于DE1-SOC的Cyclone V教学级Intel FPGA,权重以Q4.12定点格式存储在片上ROM中。
模型中的矩阵向量乘法实现为16通道脉动阵列(Systolic Array),Q/K/V投影、MLP、LM Head共用该单元,轮流运行。
注意力机制的实现需拆分为八步。
作者表示,项目旨在将Transformer推理的每一步转化为可视化的硬件:存储器、计数器、状态机和查找表。