币界网消息,分析师Yifan Zhang披露的V4架构规格与DeepSeek开源的TileKernels内核库存在多处对应。 Zhang称V4残差连接使用了流形约束超连接(MHC),这是对字节Seed团队2024年提出的HC加双随机矩阵约束的改进版。 通过TileKernels内核代码推测V4架构,三项核心命中、一项落空。 模型卡确认V4使用MHC,命中。 模型卡还确认V4是MOE模型,命中。 权重使用FP4+FP8混合存储,命中。 唯一未中的是条件记忆模块(Engram),模型卡同样未提及。 模型卡揭示了TileKernels未涉及的新组件:混合注意力机制(CSA + HCA)是V4长上下文效率飞跃的核心,1M上下文下推理FLOPS仅为V3.2的27%,KV缓存仅10%训练改用Muon优化器。
分析:TileKernelsオープンソース内容はYifan Zhangが公開したV4アーキテクチャ仕様に対応
币界网消息,分析师Yifan Zhang披露的V4架构规格与DeepSeek开源的TileKernels内核库存在多处对应。
Zhang称V4残差连接使用了流形约束超连接(MHC),这是对字节Seed团队2024年提出的HC加双随机矩阵约束的改进版。
通过TileKernels内核代码推测V4架构,三项核心命中、一项落空。
模型卡确认V4使用MHC,命中。
模型卡还确认V4是MOE模型,命中。
权重使用FP4+FP8混合存储,命中。
唯一未中的是条件记忆模块(Engram),模型卡同样未提及。
模型卡揭示了TileKernels未涉及的新组件:混合注意力机制(CSA + HCA)是V4长上下文效率飞跃的核心,1M上下文下推理FLOPS仅为V3.2的27%,KV缓存仅10%训练改用Muon优化器。