Análisis: El contenido de código abierto de TileKernels corresponde a las especificaciones de la arquitectura V4 divulgadas por Yifan Zhang

robot
Generación de resúmenes en curso

La noticia de CoinWorld, el analista Yifan Zhang reveló que las especificaciones de la arquitectura V4 corresponden en varias partes con la existencia de la biblioteca de núcleos TileKernels de código abierto de DeepSeek. Zhang afirma que la conexión residual de V4 utiliza una restricción de manifold de superconexión (MHC), que es una versión mejorada de la restricción de matriz doble aleatoria propuesta por el equipo Seed en 2024. A través del código del núcleo TileKernels, se infiere la arquitectura V4, con tres puntos clave acertados y uno fallido. La tarjeta del modelo confirma que V4 usa MHC, correcto. La tarjeta del modelo también confirma que V4 es un modelo MOE, correcto. Los pesos utilizan almacenamiento híbrido FP4+FP8, correcto. La única que no acertó fue el módulo de memoria condicional (Engram), que la tarjeta del modelo tampoco menciona. La tarjeta del modelo revela componentes nuevos no abordados por TileKernels: el mecanismo de atención híbrido (CSA + HCA) es el núcleo del salto en eficiencia del contexto largo de V4, con un FLOPS de inferencia de solo el 27% del V3 en un contexto de 1M, y la caché KV solo el 10%, entrenado con el optimizador Muon.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado