Musk relaie l'article de Kimi suscitant un grand débat dans la Silicon Valley, quel est le prochain champ de bataille pour l'Attention ?

16 mars 2026, l’équipe Kimi a publié un article intitulé Attention Residuals sur arXiv, et les choses ont rapidement échappé à tout contrôle. Elon Musk l’a relayé, Karpathy a commenté : “Nous n’avons pas encore vraiment pris au sérieux le titre Attention is All You Need”, et l’ancien cofondateur d’OpenAI, Jerry Tworek, a simplement répondu : deep learning 2.0. Une architecture provenant d’une équipe chinoise a suscité un tel niveau de discussion à Silicon Valley, que la dernière remonte peut-être à DeepSeek-V3.

Mais, malgré cette effervescence, la majorité des discussions se limitent à “Kimi a inventé quelque chose de nouveau, les grands sont excités”. Ce qui est passé inaperçu, c’est qu’au même jour, l’équipe Seed de ByteDance et l’Université de Huazhong ont publié une autre étude, intitulée Mixture-of-Depths Attention (MoDA), qui résout le même problème mais en empruntant une voie totalement différente. La même semaine, une troisième publication de l’Université de Nankin par Dilxat Muhtar, Shiwei Liu du MPI, et d’autres, intitulée “When Does Sparsity Mitigate the Curse of Depth in LLMs”, a fourni un diagnostic théorique précis.

Ces trois articles, publiés à la même période, ciblent le même enjeu. Ce n’est pas une coïncidence. Un problème structurel négligé depuis près de dix ans arrive enfin à un point critique où il doit être résolu.

Le problème ne concerne pas la dimension séquence de l’attention. L’attention a évolué de plusieurs générations ces dernières années, du multi-tête à la requête groupée, à MLA dans DeepSeek, aux diverses variantes sparsifiées, chaque génération cherchant à optimiser la façon dont les tokens se regardent mutuellement. Cette course à l’armement est passionnante, mais elle masque une réalité — la façon dont l’information circule entre les couches, depuis la publication du papier Transformer en 2017, la réponse est toujours la même : la connexion résiduelle, h = h + f(h), une opération d’addition sans paramètres d’apprentissage.

Toutes les sorties des couches précédentes sont additionnées avec égalité. Il n’y a ni choix, ni oubli, ni apprentissage. La contribution de chaque couche est traitée de la même manière, qu’elle capture des caractéristiques clés ou du bruit.

La connexion résiduelle est le “plan B” le plus réussi de l’histoire du deep learning.

Le plan B le plus efficace

Proposé en 2015 par Kaiming He dans ResNet, le concept est extrêmement simple : lorsque le réseau devient trop profond pour être entraîné — à cause de la disparition du gradient — on ajoute une “autoroute” permettant à l’information de sauter une couche et d’arriver directement à la suivante. Même si cette couche n’apprend rien, l’information et le gradient peuvent au moins passer par cette voie rapide. Résultat immédiat : ResNet a permis de faire passer le réseau de 20 à plus de 100 couches. Deux ans plus tard, le Transformer est apparu, et la connexion résiduelle a été intégrée sans modification. Depuis, personne n’a vraiment touché à cette conception.

Ce n’est pas faute d’essayer. ReZero, FixUp, Highway Network ont tous expérimenté des variantes permettant d’apprendre les poids résiduels. Mais aucune n’a été adoptée dans les architectures principales de grands modèles, car la simplicité, la stabilité et le faible coût de cette connexion la rendaient irrésistible. À l’époque, la taille des modèles ne révélait pas encore ses effets secondaires.

44 % des couches inactives

Quels sont ces effets secondaires ? Début 2025, l’Université de Westlake, Emory et Shiwei Liu du MPI ont publié “The Curse of Depth”. En mars de cette année, Muhtar et d’autres de Nankin ont publié “When Does Sparsity Mitigate the Curse of Depth in LLMs”, fournissant un diagnostic quantitatif : dans l’architecture des grands modèles actuels, les couches profondes tendent à devenir des identités. Ce qui entre en sortie, c’est la même chose, cette couche n’a pratiquement rien appris.

Les chiffres sont alarmants. Les chercheurs utilisent un “score d’utilité” pour mesurer si une couche effectue une transformation significative. Sur un modèle de 12 couches, toutes sont actives. Sur 16 couches, trois sont inutiles. Sur 24, neuf. Sur 32, quatorze, soit 44 % de couches quasiment inactives. Le nombre de paramètres passe de 900 millions à 2,3 milliards, avec une augmentation de 156 % du budget, mais le nombre de couches réellement utiles ne passe que de 12 à 18.

Diagnostic quantitatif de la malédiction de la profondeur — efficacité décroissante de l’augmentation du nombre de couches

Ce phénomène est directement lié au fonctionnement de la connexion résiduelle. La sortie de chaque couche est ajoutée à une “voie principale” via la connexion résiduelle. Avec l’augmentation du nombre de couches, le signal accumulé sur cette voie principale devient de plus en plus fort (on peut le voir comme une “volumétrie de fond” qui monte), mais l’amplitude du nouveau signal généré par chaque couche reste limitée. Au bout d’un certain nombre de couches, le nouveau signal est noyé dans le bruit de fond, et la sortie devient presque identique à l’entrée, rendant la couche inutile.

La connexion résiduelle a résolu le problème du “passage du gradient”, mais en a créé un autre : celui de rendre profondement utile.

Dans l’ère des grands modèles, ce coût est réel. Une seule couche représente des dizaines de milliards d’opérations flottantes. Si un modèle de 128 couches a 44 % de couches inactives, cela représente près de 60 couches de calcul inutilisées. Les efforts pour optimiser l’efficacité de l’inférence — quantification, distillation, pruning, attention sparsifiée, compression du cache KV — visent tous à réduire ces “calculs utiles”.

Le plus grand trou noir d’efficacité ne réside pas dans la complexité quadratique de l’attention, mais dans une opération d’addition qui n’a pas changé depuis 2015.

Ajouter une dimension de profondeur à l’attention

L’équipe Seed de ByteDance a choisi une voie différente. Au lieu de toucher à la connexion résiduelle, elle a ajouté une seconde dimension à la mécanique d’attention.

L’attention standard dans le Transformer ne fonctionne que sur la dimension séquence : chaque token regarde les autres tokens de la même couche via leurs clés et valeurs (KV). La modification de MoDA est intuitive : elle inclut aussi dans la fenêtre d’attention les KV des couches précédentes. Lorsqu’un token à la couche L calcule son attention, il peut non seulement voir les autres tokens de la même couche, mais aussi accéder directement aux KV des couches 1 à L-1. La normalisation par softmax s’effectue conjointement sur la dimension séquence et la dimension profondeur.

L’idée est simple à comprendre, mais sa mise en œuvre efficace, sans ralentir le processus, est plus complexe.


La mécanique d’attention à double dimension de MoDA — normalisation conjointe sur la séquence et la profondeur

Pour inclure tous les KV des couches précédentes, la charge de calcul explose. Sur un modèle de 32 couches, la couche 32 doit consulter tous les KV des 31 couches précédentes, ce qui multiplie par 32 la longueur effective de la séquence. La clé de MoDA est une stratégie de " regroupement et réarrangement" : ne sélectionner qu’une partie des KV historiques, puis les réorganiser en groupes contigus en mémoire pour que la multiplication matricielle GPU soit efficace.

Concrètement, MoDA introduit un mécanisme de “flux de profondeur”. Au lieu de consulter toutes les couches précédentes, chaque couche apprend à sélectionner dynamiquement les couches les plus pertinentes via un routage. Ce concept est similaire à celui des Mixture-of-Experts — activer dynamiquement certains “experts” plutôt que tous. La différence : ici, les “experts” sont des couches historiques à différentes profondeurs.

Sur une séquence de 64K, l’efficacité de l’opérateur MoDA atteint 97,3 % de FlashAttention-2. En intégrant toute cette attention profonde, la vitesse n’est ralentie que de moins de 3 %.


Stratégie de regroupement et réarrangement — déplacer les KV des couches historiques dispersées vers une mémoire contiguë

Sur un modèle de 1,5 milliard de paramètres (avec la recette d’entraînement OLMo2), MoDA améliore en moyenne de 2,11 % la performance sur 10 tâches downstream, avec un coût supplémentaire de seulement 3,7 %. Ce n’est pas énorme à première vue, mais c’est une avancée architecturale, pas une simple augmentation de données ou de durée d’entraînement. De plus, l’effet de MoDA s’amplifie avec la taille du modèle : dans des modèles plus grands, la dégradation profonde est plus sévère, et la correction apportée par MoDA est plus marquée.


Performance de MoDA sur 10 tâches downstream

Ce qui est encore plus intéressant, c’est la réaction de MoDA face à la normalisation Post-Norm. La majorité des grands modèles utilisent la normalisation Pre-Norm (avant l’attention), car Post-Norm (après) est théoriquement supérieur mais entraîne une instabilité lors de l’entraînement. La mécanique KV profonde de MoDA offre à Post-Norm une voie supplémentaire pour le gradient, ce qui atténue considérablement cette instabilité.

La combinaison MoDA + Post-Norm ouvre la voie à une nouvelle possibilité : peut-être que les compromis faits pour la stabilité d’entraînement (Pre-Norm) peuvent être abandonnés.


Différence de perte de validation entre Pre-Norm et Post-Norm après ajout de KV profond

Ne pas innover, rénover

MoDA n’a pas touché à la connexion résiduelle. Il a choisi une voie différente : en dehors de la résiduelle, il a ajouté une autre route. Le même jour, l’équipe Kimi a publié Attention Residuals (AttnRes), qui va plus directement à l’essentiel en modifiant la connexion résiduelle elle-même.

La connexion résiduelle standard additionne simplement toutes les sorties précédentes avec égalité, sans choix ni oubli. AttnRes remplace cette addition fixe par une opération d’attention : chaque couche utilise son propre état comme requête, et toutes les couches précédentes comme candidats, pour décider, via attention, quelles caractéristiques sont utiles et avec quels poids.

La connexion résiduelle devient ainsi un routage dynamique et apprenable.


Idée centrale d’AttnRes — remplacer l’addition résiduelle par une attention pondérée

Le coût est que chaque couche doit effectuer une opération d’attention profonde supplémentaire, ce qui n’est pas négligeable. Pour limiter la surcharge, l’équipe Kimi a utilisé une stratégie de “bloc” (Block AttnRes) : diviser le réseau en blocs, effectuer une attention complète dans chaque bloc, et ne faire qu’un résumé au niveau du bloc entre eux.

AttnRes a été intégré dans Kimi Linear (total de 480 milliards de paramètres, 30 milliards d’activation), entraîné sur 1,4 trillion de tokens, avec des résultats cohérents à différentes échelles. La technique a été largement relayée, sans entrer dans les détails techniques ici. La raison pour en parler, c’est la comparaison avec MoDA.


Courbe d’entraînement et ablations d’AttnRes

Les deux approches pointent vers la même cause : l’information superficielle captée par les couches profondes est diluée à chaque mise à jour résiduelle. La différence réside dans la méthode. MoDA ne touche pas à la connexion résiduelle, mais lui donne une dimension profonde pour que la couche profonde puisse contourner la flux résiduel et accéder directement aux caractéristiques brutes de la couche superficielle. AttnRes modifie directement la connexion résiduelle en la remplaçant par une attention pondérée. L’un “ouvre une nouvelle voie”, l’autre “rénove la voie existante”.

Les deux publications, par leur date et leur approche, illustrent que le problème de profondeur de l’attention est une préoccupation partagée. La différence est la perspective : l’une ajoute une dimension à l’attention, l’autre modifie la transmission entre couches.


Conséquences plus larges de cette conclusion — au-delà des deux papiers — : dans le Transformer, de nombreux mécanismes fixes ne fonctionnent qu’en une seule dimension. Chaque étape doit être séquentielle, chaque tête d’attention indépendante, chaque token suit le même chemin de calcul. Ces compromis ont été faits pour assurer la convergence et la stabilité.

L’évolution des dix dernières années en deep learning consiste à transférer de plus en plus de décisions structurelles du concepteur au modèle lui-même. Les noyaux convolutifs manuels ont été remplacés par l’attention apprenable. Les encodages positionnels fixes par des encodages rotatifs appris. La répartition fixe des experts par des routages dynamiques. Aujourd’hui, la façon dont l’information circule dans la dimension profonde commence aussi à être décidée par l’attention elle-même.

Karpathy disait que nous n’avons pas encore pris au sérieux la signification littérale de “Attention is All You Need”. Il a peut-être raison. Mais pas dans le sens que “l’attention suffit”, plutôt dans celui que “l’attention n’a pas encore été exploitée à fond”. Elle a déjà évolué dans la dimension séquence, mais dans la dimension profonde, c’est encore le début.

La profondeur est le prochain champ de bataille pour l’attention.

Source : Tencent Tech

Avertissement et clause de non-responsabilité

Le marché comporte des risques, l’investissement doit être prudent. Cet article ne constitue pas un conseil d’investissement personnel, ni une prise en compte des objectifs, situation financière ou besoins spécifiques de chaque utilisateur. L’utilisateur doit juger si les opinions, points de vue ou conclusions présentés ici sont adaptés à sa situation. En investissant sur cette base, il en assume l’entière responsabilité.

DEEPSEEK12,78%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler