分析:TileKernelsオープンソース内容はYifan Zhangが公開したV4アーキテクチャ仕様に対応

robot
概要作成中

币界网消息,分析师Yifan Zhang披露的V4架构规格与DeepSeek开源的TileKernels内核库存在多处对应。
Zhang称V4残差连接使用了流形约束超连接(MHC),这是对字节Seed团队2024年提出的HC加双随机矩阵约束的改进版。
通过TileKernels内核代码推测V4架构,三项核心命中、一项落空。
模型卡确认V4使用MHC,命中。
模型卡还确认V4是MOE模型,命中。
权重使用FP4+FP8混合存储,命中。
唯一未中的是条件记忆模块(Engram),模型卡同样未提及。
模型卡揭示了TileKernels未涉及的新组件:混合注意力机制(CSA + HCA)是V4长上下文效率飞跃的核心,1M上下文下推理FLOPS仅为V3.2的27%,KV缓存仅10%训练改用Muon优化器。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン