Análisis: El contenido de código abierto de TileKernels corresponde con las especificaciones de arquitectura V4 de Yifan Zhang

Según la monitorización de Dongcha Beating, la biblioteca de kernels TileKernels de código abierto por DeepSeek corresponde de varias maneras con las especificaciones de arquitectura V4 divulgadas anteriormente por Yifan Zhang. Zhang afirmó que las conexiones residuales V4 usan Hyper-Conexiones. La TileKernels de código abierto presenta mHC (Hyper-Conexiones Constriñidas por Manifold), que es una versión mejorada de la HC propuesta por el equipo Byte Seed en 2024, abordando el problema de divergencia de señal encontrado durante el entrenamiento a gran escala con la HC original. mHC en sí es un tipo de Hyper-Conexiones, ya que la HC original no puede soportar un entrenamiento estable a gran escala; por lo tanto, es probable que mHC sea lo que se use realmente en V4. Zhang mencionó que V4 emplea Fused MoE Mega-Kernel para gestionar 384 activaciones de expertos en 6 capas MoE, mientras que el módulo MoE en TileKernels incluye selección de expertos Top-k, mapeo de tokens a expertos, y la distribución y recopilación de expertos fusionados. TileKernels también contiene el kernel Engram, que es un módulo de memoria condicional propuesto en un artículo de DeepSeek a principios de este año, pero Engram no se menciona en las especificaciones de V4 de Zhang. La biblioteca soporta SM90 (Hopper) y SM100 (Blackwell), pero no soporta Huawei Ascend. Anteriormente, The Information informó que V4 fue entrenado en Blackwell, y DeepSeek ha pasado meses adaptando el modelo para chips Huawei y Cambricon.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado