Musk comparte el artículo de Kimi generando gran debate en Silicon Valley, ¿cuál es el próximo campo de batalla para Attention?

Question

16 de marzo de 2026, el equipo de Kimi publicó un artículo titulado Attention Residuals en arXiv, y rápidamente las cosas se salieron de control. Elon Musk lo compartió, Karpathy comentó: “Aún no nos tomamos en serio el título de Attention is All You Need”, y Jerry Tworek, cofundador anterior de OpenAI, simplemente respondió con cuatro palabras: deep learning 2.0. Una arquitectura de un equipo chino puede generar este nivel de discusión en Silicon Valley, la última vez que ocurrió algo similar fue con DeepSeek-V3.

Pero, aunque hay mucho ruido, la mayoría de las discusiones se quedan en el nivel de “Kimi hizo algo nuevo, los grandes están emocionados”. Lo que pasa desapercibido es que, el mismo día, el equipo Seed de ByteDance y la Universidad de Huazhong publicaron otro artículo titulado Mixture-of-Depths Attention (MoDA), que aborda exactamente el mismo problema pero con un enfoque completamente diferente. En esa misma semana, la tercera publicación de Dilxat Muhtar de la Universidad de Nanjing, Shiwei Liu del MPI y otros titulada “¿Cuándo la esparsidad mitiga la maldición de la profundidad en los LLMs?” proporcionó un diagnóstico teórico muy preciso.

Tres artículos en rápida sucesión, apuntando al mismo objetivo. No es casualidad. Un problema estructural que ha sido ignorado durante casi una década finalmente ha llegado a un punto crítico que no puede seguir posponiéndose.

El problema no está en la dimensión secuencial de la atención. La atención ha evolucionado mucho en los últimos años, desde multi-cabeza hasta consultas agrupadas, MLA en DeepSeek, y varias variantes esparsas, cada generación optimiza cómo los tokens se relacionan entre sí. Esta carrera armamentística es fascinante, pero oculta un hecho: la forma en que se transmite la información entre capas, desde que se publicó el paper Transformer en 2017, siempre ha sido la misma. Conexiones residuales, h = h + f(h), una operación de suma sin parámetros de aprendizaje.

La salida de todas las capas se suma con igual peso. Sin decisiones, sin olvidar, sin aprender. La contribución de cada capa se acumula en la corriente residual sin distinguir si aprende características clave o ruido.

La conexión residual es la “solución temporal” más exitosa en la historia del aprendizaje profundo.

La solución temporal más exitosa

La conexión residual fue propuesta en 2015 por Kaiming He en ResNet. La idea es simple: cuando la red se vuelve demasiado profunda, el entrenamiento se vuelve inestable y los gradientes desaparecen, haciendo que los parámetros de las capas profundas apenas se actualicen. Para solucionar esto, se añade una “autopista” que permite que la entrada pase directamente a la salida, saltándose esa capa. Aunque esa capa no aprenda nada, la información y los gradientes pueden fluir por esa vía rápida. El resultado fue inmediato: ResNet permitió entrenar redes de más de 100 capas, en lugar de solo unas pocas.

Dos años después, apareció Transformer, y la conexión residual se adoptó sin cambios. Desde entonces, nadie ha modificado ese diseño.

No es que nadie lo haya intentado. Variantes como ReZero, FixUp, Highway Network intentaron hacer que los pesos residuales sean aprendibles. Pero ninguna se convirtió en la arquitectura principal para grandes modelos, porque la conexión residual es demasiado útil: simple, estable y casi sin coste adicional. En el tamaño de los modelos de esa época, sus efectos secundarios aún no se habían evidenciado.

El 44% de las capas están inactivas

¿Y cuáles son los efectos secundarios? A principios de 2025, el equipo de Shiwei Liu del MPI, junto con investigadores de la Universidad de Emory y la Universidad de Zhejiang, publicaron “The Curse of Depth”. En marzo de ese mismo año, Muhtar y otros de Nanjing publicaron “¿Cuándo la esparsidad mitiga la maldición de la profundidad en los LLMs?”, que proporcionó un diagnóstico cuantitativo. En los modelos actuales, las transformaciones en capas profundas tienden a ser casi idénticas a la identidad: la entrada y la salida son prácticamente iguales, esa capa no hace nada.

Los números son alarmantes. Los investigadores usan un “puntaje de utilidad” para medir si una capa realiza transformaciones significativas. En un modelo de 12 capas, todas las capas están activas. En uno de 16, solo quedan tres útiles. En 24 capas, nueve son inútiles. En 32, 14 no aportan nada, casi el 44% de las capas no aprenden nada. El número de parámetros pasa de 900 millones a 2.3 mil millones, un aumento del 156%, pero las capas efectivas solo aumentan de 12 a 18.

Diagnóstico cuantitativo de la maldición de la profundidad: eficiencia decreciente en el aumento del tamaño del modelo en capas útiles

La causa está directamente relacionada con cómo funciona la conexión residual. La salida de cada capa se suma a una “autopista” mediante residual. A medida que se añaden capas, la señal acumulada en esa vía principal crece (como un volumen de fondo que aumenta), pero la señal generada en cada capa es limitada. En capas profundas, la nueva señal se pierde en el ruido de fondo, y la entrada y salida son casi iguales, haciendo que esa capa sea virtualmente inútil.

La conexión residual resuelve el problema de “hacer que el gradiente pase”, pero crea el problema de “hacer que las capas profundas sean útiles”.

En la era de los grandes modelos, este costo es muy real: una capa realiza decenas de miles de millones de operaciones de punto flotante. Si en un modelo de 128 capas, el 44% de ellas no hace nada, casi sesenta capas están desperdiciando potencia de cálculo. La comunidad ha invertido años en optimizar la eficiencia de inferencia: cuantización, destilación, poda, atención esparsa, compresión de caché KV, todo para reducir esas “computaciones útiles”.

El mayor agujero negro de eficiencia no está en la complejidad cuadrática de la atención, sino en una operación de suma que no ha cambiado desde 2015.

Agregar dimensión de profundidad a la atención

El equipo de Seed de ByteDance tomó un camino diferente. En lugar de modificar la conexión residual, añadieron una segunda dimensión a la atención misma.

La atención estándar en Transformer opera solo en la dimensión secuencial: cada token en la capa mira los KV de los otros tokens en esa misma capa. La innovación de MoDA es simple: también incluye los KV de las capas anteriores en la atención. Cuando un token en la capa L calcula su atención, no solo mira los tokens en esa capa, sino que también puede consultar los KV desde la capa 1 hasta la L-1. La dimensión secuencial y la dimensión de profundidad se normalizan juntas en un mismo softmax.

La idea es sencilla, pero la dificultad radica en implementarla sin que afecte demasiado la velocidad.

MoDA: atención bidimensional—normalización conjunta en secuencia y profundidad

Incluir todos los KV históricos en la atención explotaría la memoria y el cálculo. En un modelo de 32 capas, la atención en la capa 32 tendría que consultar los KV de 31 capas anteriores, multiplicando por 32 la longitud efectiva de la secuencia. La clave de MoDA es una estrategia de “reordenamiento por grupos”: selecciona solo algunas capas relevantes y reorganiza sus KV en memoria contigua, permitiendo que la GPU realice multiplicaciones de matrices de manera eficiente.

Específicamente, MoDA introduce un mecanismo de “flujo de profundidad”. No todas las capas consultan todos los KV históricos, sino que usan un enrutamiento aprendible para seleccionar las capas más relevantes. Esto es similar a la idea de Mixture-of-Experts: en lugar de activar todos los expertos, se activan solo los necesarios, pero en este caso, los “expertos” son diferentes profundidades de capas pasadas.

En una secuencia de 64K, la eficiencia del operador de MoDA alcanza el 97.3% de FlashAttention-2. Añadir toda esa atención en profundidad solo reduce la velocidad en menos del 3%.

Estrategia de reordenamiento por grupos—moviendo KV históricos dispersos a memoria contigua

En un modelo de 1.5 mil millones de parámetros (basado en la receta de entrenamiento de OLMo2), MoDA mejora en promedio un 2.11% en 10 tareas downstream, con solo un 3.7% de cálculo adicional. Aunque parece poco, es un avance en arquitectura, no solo en datos o entrenamiento. Además, la mejora se amplifica con el tamaño del modelo: en modelos mayores, la degradación por profundidad es más severa, y la corrección de MoDA es más evidente.

Comparación de rendimiento en 10 tareas downstream

Lo más interesante es la interacción entre MoDA y la normalización Post-Norm. La mayoría de los grandes modelos usan Pre-Norm (normalización antes de atención) porque Post-Norm (normalización después) es más estable en teoría, pero en la práctica, su entrenamiento es inestable. La atención en profundidad de MoDA proporciona un canal adicional de gradientes en Post-Norm, haciendo que sus problemas de estabilidad sean menos críticos.

La combinación MoDA+Post-Norm abre la posibilidad de revertir la decisión de usar Pre-Norm, que fue una compensación por la estabilidad en entrenamiento.

Diferencias en pérdida de validación tras agregar KV en profundidad en Pre-Norm y Post-Norm

No inventar, sino mejorar

MoDA no toca la conexión residual. En cambio, Kimi propuso Attention Residuals (AttnRes), que va por una ruta más directa: modificar la propia conexión residual.

La conexión residual estándar suma de manera fija las salidas anteriores, sin decisiones. AttnRes reemplaza esa suma fija por una atención: cada capa usa su propio estado como consulta, y las salidas anteriores como candidatos, y decide mediante atención qué características anteriores son útiles y con qué peso.

La conexión residual pasa de una fórmula fija a una ruta dinámica aprendible.

El costo es que cada capa debe realizar una atención en profundidad adicional, lo que aumenta el cálculo. Para controlar esto, Kimi usa una estrategia de bloques: divide las capas en bloques, realiza atención completa dentro de cada bloque, y entre bloques solo se consideran agregaciones a nivel de bloque.

AttnRes ya está integrado en Kimi Linear (con 480 mil millones de parámetros totales y 30 mil millones de activaciones), preentrenado en 1.4 billones de tokens, con resultados consistentes en diferentes tamaños de modelos. La técnica ya ha sido ampliamente reportada, y no se profundizará aquí. Lo que vale la pena destacar es la comparación con MoDA.

Curvas de entrenamiento y experimentos de ablación de AttnRes

Las causas de los problemas en ambas rutas son las mismas: la información superficial de capas profundas se diluye repetidamente por la actualización residual. Pero la diferencia está en el enfoque: MoDA no toca la residual, sino que añade una dimensión de profundidad a la atención, permitiendo que las capas profundas puedan saltarse la residual y acceder directamente a las características superficiales. AttnRes, en cambio, modifica la conexión residual, reemplazando la suma fija por atención ponderada. Uno “abre otra ruta”, el otro “renueva esa ruta”.

Ambas publicaciones aparecen el mismo día, con rutas distintas pero un mismo objetivo. No es casualidad: el problema de la profundidad en atención ya es un consenso en la comunidad, y la diferencia está en el enfoque desde qué ángulo se aborda.

Efectividad de AttnRes en diferentes tamaños de modelos

Olvidar la estructura de soporte

Volviendo a la pregunta inicial: ¿por qué el problema de las capas profundas inactivas solo se empezó a tomar en serio en 2026?

Porque la conexión residual era demasiado útil. Resolvió un problema apremiante (gradientes que desaparecen), con un costo controlado (el deterioro en modelos pequeños no era evidente), y las alternativas no estaban maduras (ReZero, Highway Network no habían sido validadas a gran escala). Nadie tenía motivación para cambiarla. No fue una decisión consciente, sino una solución temporal que se olvidó. La estructura que se construyó con ella, con el tiempo, se percibió como una carga estructural.

El efecto de dilución de la señal en la residual—cuanto más profunda la red, más difícil que la señal nueva llegue a las capas inferiores

Pero lo que realmente hizo difícil detectar este problema no fue la propia residual, sino que la atención ha operado durante años en solo una dimensión. En los últimos ocho años, toda la evolución de la atención—multi-cabeza, consultas agrupadas, esparsidad, linealidad—ha sido en la dimensión secuencial. La forma en que los tokens se relacionan entre sí ha sido optimizada muchas veces. Pero, ¿cómo se relacionan las capas entre sí? Esa pregunta nunca se formuló. La dimensión de profundidad ha sido una zona ciega para la atención.

MoDA y AttnRes abren esa zona ciega desde diferentes ángulos. MoDA añade una segunda dimensión a la atención, permitiéndole operar en secuencia y en profundidad simultáneamente. AttnRes convierte la transmisión de información entre capas en una operación de atención. Aunque diferentes, ambas concluyen que la atención no debe limitarse a la dimensión horizontal, sino que también debe explorar la vertical.

Esta conclusión va más allá de los artículos: en Transformer todavía hay mecanismos fijos que solo operan en una dimensión. Cada capa debe ejecutarse en orden, sin saltarse pasos. Cada cabeza de atención calcula independientemente y luego se concatena, sin coordinación dinámica entre ellas. Cada token, independientemente de su dificultad, sigue la misma ruta de cálculo. Estas decisiones fueron hechas para facilitar el entrenamiento y la convergencia.

La evolución del aprendizaje profundo en la última década, en su nivel más abstracto, apunta a una cosa: devolver a los modelos muchas decisiones estructurales que antes eran diseñadas manualmente. Los kernels de convolución manuales han sido reemplazados por atención aprendible. Los codificadores posicionales fijos por codificación rotacional aprendible. La asignación fija de expertos por rutas aprendibles. Ahora, la forma en que fluye la información en la dimensión de profundidad también empieza a decidirse por la atención misma.

Karpathy dice que aún no hemos tomado en serio el significado literal de “Attention is All You Need”. Quizá tenga razón, pero no en el sentido de “la atención basta”, sino en que “la atención todavía no se ha usado suficiente”. En la dimensión secuencial, ya ha evolucionado mucho, pero en la dimensión de profundidad apenas comienza.

La profundidad será el próximo campo de batalla para la atención.

Fuente: Tencent Technology

Aviso de riesgo y exención de responsabilidad

El mercado tiene riesgos, invierta con prudencia. Este artículo no constituye consejo de inversión personal, ni considera objetivos, situación financiera o necesidades específicas del usuario. El usuario debe evaluar si las opiniones, puntos de vista o conclusiones aquí presentadas son apropiadas para su situación particular. La inversión es bajo su propio riesgo.

Musk comparte el artículo de Kimi generando gran debate en Silicon Valley, ¿cuál es el próximo campo de batalla para Attention?

La solución temporal más exitosa

El 44% de las capas están inactivas

Agregar dimensión de profundidad a la atención

No inventar, sino mejorar

Efectividad de AttnRes en diferentes tamaños de modelos

Olvidar la estructura de soporte

Temas de actualidad

Gate13thAnniversaryGlobalCelebration

TradFiIntroducesMultiLeverageFirst

IsraelStrikesIranBTCPlunges

CryptoMarketVolatility

CreatorLeaderboard

Gate Fun en tendencia

Skyhor

skyhorse

MDOG

Mars Dog

GT

EID

MEME

MEMECOIN

BUTTCOIN

BUTTCOIN

Anclado