Musk partilha artigo do Kimi gerando grande discussão no Vale do Silício, qual será o próximo campo de batalha do Attention?

Question

16 de março de 2026, a equipe Kimi publicou um artigo chamado Attention Residuals no arXiv, e as coisas rapidamente saíram do controle. Musk retweetou, Karpathy comentou “Ainda não levámos a sério o título Attention is All You Need”, e o ex-cofundador da OpenAI, Jerry Tworek, respondeu com quatro palavras: deep learning 2.0. Uma arquitetura de uma equipe chinesa causando esse nível de discussão em Silicon Valley, só se tinha visto na DeepSeek-V3.

Mas, apesar do burburinho, a maioria das discussões permanecia no nível de “Kimi criou algo novo, os grandes estão empolgados”. O que passou despercebido é que, no mesmo dia, a equipe Seed da ByteDance e a Universidade de Ciência e Tecnologia de Hubei publicaram outro artigo, chamado Mixture-of-Depths Attention (MoDA), que resolve o mesmo problema, usando uma abordagem completamente diferente. Na mesma semana, a terceira publicação de Dilxat Muhtar, da Universidade de Nanjing, e Shiwei Liu, do MPI, intitulada “When Does Sparsity Mitigate the Curse of Depth in LLMs”, forneceu um diagnóstico teórico preciso sobre a patologia.

Três artigos surgiram de forma intensa, focados no mesmo alvo. Isso não é coincidência. Um problema estrutural negligenciado há quase uma década finalmente atingiu um ponto crítico que exige solução.

A questão não está na dimensão sequencial da atenção. A atenção evoluiu bastante nos últimos anos, de multi-head para query grouping, MLA do DeepSeek, várias variantes esparsas — cada geração aprimorando como os tokens se relacionam. Essa corrida armamentista é empolgante, mas oculta um fato — a forma de transmissão de informação entre camadas, desde o artigo Transformer de 2017 até hoje, sempre foi a mesma. Conexões residuais, h = h + f(h), uma operação de soma sem parâmetros de aprendizado.

Saídas de todas as camadas históricas são somadas com peso igual. Sem escolhas, sem esquecimento, sem aprendizado. A contribuição de cada camada é tratada igualmente, sendo incorporada na corrente residual, independentemente de aprenderem características-chave ou ruído.

Conexões residuais são a solução temporária mais bem-sucedida na história do deep learning.

A solução temporária mais eficaz

As conexões residuais foram propostas por He Kaiming em ResNet, em 2015. A ideia é simples: redes muito profundas param de treinar por causa do desaparecimento do gradiente. Para resolver, cada camada recebe uma “autoestrada” — uma via rápida que permite pular a camada e conectar diretamente ao próximo estágio. Mesmo que a camada não aprenda nada, a informação e o gradiente podem passar por essa via rápida. O resultado foi imediato: ResNet aumentou a profundidade de dezenas para mais de cem camadas. Dois anos depois, o Transformer foi lançado, e a conexão residual foi incorporada sem alterações. Desde então, esse design permaneceu inalterado.

Não que ninguém tenha tentado. Variantes como ReZero, FixUp, Highway Network tentaram tornar os pesos residuais treináveis. Mas nenhuma virou padrão em grandes modelos, porque a conexão residual é extremamente útil. Simples, estável, quase sem custo computacional, e na escala de modelos da época, seus efeitos colaterais ainda não eram evidentes.

44% das camadas ficam ociosas

Qual o efeito colateral? No início de 2025, o time da Universidade de Zhejiang, Emory e MPI publicou “The Curse of Depth”. Em março deste ano, Muhtar e outros da Universidade de Nanjing publicaram “When Does Sparsity Mitigate the Curse of Depth in LLMs”, que fornece um diagnóstico quantitativo. Sob a arquitetura de grandes modelos atuais, as transformações nas camadas mais profundas tendem a se aproximar de uma identidade — o que entra é o que sai, essa camada é praticamente inútil.

Os números são preocupantes. Pesquisadores usam um “score de utilidade” para medir se uma camada faz transformações significativas. Em um modelo de 12 camadas, todas as camadas estão ativas. Em 16, três estão inativas. Em 24, nove. Em 32, 14 — quase metade das camadas não aprendem nada. O número de parâmetros sobe de 900 milhões para 2,3 bilhões, um aumento de 156%, mas as camadas efetivas só aumentam de 12 para 18.

Diagnóstico quantitativo da maldição da profundidade — eficiência decrescente do número efetivo de camadas com o aumento do tamanho do modelo

A causa está relacionada ao funcionamento das conexões residuais. Cada saída de camada é somada à “autoestrada” residual. Com mais camadas, o sinal acumulado na autoestrada aumenta (pense como um “volume de fundo” crescente), mas o sinal gerado por cada nova camada é limitado. Em camadas profundas, o novo sinal se perde no ruído de fundo, e a entrada e saída tornam-se praticamente iguais, tornando a camada inútil.

Conexões residuais resolvem o problema de passar o gradiente, mas criam o problema de fazer as camadas profundas terem sentido.

Na era dos grandes modelos, esse custo é alto. Uma camada exige dezenas de bilhões de operações de ponto flutuante. Um modelo de 128 camadas, com 44% de camadas ociosas, desperdiça quase 60 camadas de cálculo. Esforços de anos para otimizar inferência — quantização, destilação, pruning, atenção esparsa, compressão de cache KV — focam em melhorar esses cálculos úteis.

O maior buraco na eficiência não é a complexidade quadrática da atenção, mas uma operação de soma que não mudou desde 2015.

Adicionar profundidade à atenção

A equipe Seed da ByteDance adotou uma abordagem diferente. Em vez de mexer na conexão residual, eles adicionaram uma segunda dimensão à própria atenção.

A atenção padrão do Transformer opera apenas na dimensão sequencial: cada token na camada observa os outros tokens na mesma camada, usando suas chaves e valores. MoDA faz uma mudança intuitiva: inclui também as chaves e valores das camadas anteriores. Quando um token na camada L faz atenção, ele pode ver não só os tokens da mesma camada, mas também as chaves e valores das camadas de 1 a L-1. A normalização é feita em uma softmax conjunta, considerando tanto a dimensão sequencial quanto a profundidade.

A ideia é simples, mas a implementação eficiente sem prejudicar a velocidade é desafiadora.

A atenção bidimensional do MoDA — normalização conjunta na dimensão sequencial e na dimensão de profundidade

Incluir todas as chaves e valores históricos explode o cálculo. Uma rede de 32 camadas, ao consultar todas as anteriores, aumenta a “comprimento” efetivo em 32 vezes. A solução do MoDA é uma estratégia de “rearranjo em grupos”, selecionando apenas algumas camadas relevantes, e reorganizando os dados na memória para que a GPU possa fazer multiplicações de matriz de forma eficiente.

Especificamente, MoDA introduz o mecanismo de “fluxo de profundidade”. Em vez de consultar todas as camadas anteriores, uma rota aprendível escolhe as mais relevantes, semelhante ao conceito de “especialistas” em Mixture-of-Experts — não ativar todos, mas selecionar dinamicamente os necessários. Aqui, os “especialistas” são diferentes profundidades de camadas passadas.

Em um comprimento de sequência de 64 mil, a eficiência do operador de MoDA atinge 97,3% do FlashAttention-2. Com toda essa atenção de profundidade, a velocidade diminui menos de 3%.

Estratégia de rearranjo em grupos — movendo as chaves e valores de camadas dispersas na memória para uma região contínua

Em um modelo de 1,5 bilhões de parâmetros (treinado com a receita do OLMo2), o MoDA melhora a média de desempenho em 2,11% em 10 tarefas downstream, com um custo adicional de apenas 3,7%. Pode parecer pouco, mas é uma melhoria arquitetural, não uma questão de mais dados ou treinamento mais longo. Além disso, o efeito do MoDA aumenta com o tamanho do modelo — em modelos maiores, a degradação de profundidade é mais severa, e a correção do MoDA mais evidente.

Comparação de desempenho do MoDA em 10 tarefas downstream

Mais interessante ainda é a interação entre MoDA e Post-Norm. Modelos grandes quase sempre usam Pre-Norm (normalização antes da atenção), pois Post-Norm (normalização após atenção) é mais teórico, mas instável na prática. O mecanismo de chaves e valores de profundidade do MoDA fornece um canal de gradiente extra para Post-Norm, resolvendo sua instabilidade.

A combinação MoDA + Post-Norm abre possibilidades — talvez o compromisso de usar Pre-Norm, por estabilidade, possa ser revisto.

Diferença de perda de validação entre Pre-Norm e Post-Norm após adição de deep KV

Não inovar, reformar

MoDA não mexe na conexão residual, apenas cria uma rota alternativa fora dela. No mesmo dia, a equipe Kimi lançou Attention Residuals (AttnRes), que vai por um caminho mais direto: modifica a própria conexão residual.

A conexão residual padrão soma de forma fixa as saídas anteriores, formando a autoestrada. Sem escolhas, sem esquecimento. AttnRes substitui essa soma fixa por uma operação de atenção, onde cada camada usa seu próprio estado como consulta, e as saídas anteriores como candidatos, decidindo dinamicamente quais características usar e com que peso.

Conexões residuais passam a ser rotas dinâmicas aprendíveis, com atenção.

A ideia central do AttnRes — substituir a soma residual por atenção dinâmica

O custo é que cada camada precisa fazer uma atenção de profundidade adicional, o que aumenta o processamento. A equipe Kimi usa uma estratégia de blocos (Block AttnRes): divide as camadas em blocos, faz atenção completa dentro de cada bloco, e entre blocos só há agregação de nível superior.

AttnRes já está integrado ao Kimi Linear (com 480 bilhões de parâmetros totais e 30 bilhões de ativação), treinado em trilhões de tokens, com resultados consistentes em diferentes tamanhos de modelos. Os detalhes técnicos já foram amplamente divulgados. O motivo de destacar aqui é a comparação com a abordagem do MoDA.

Curvas de treinamento e experimentos de ablação do AttnRes

As duas abordagens têm a mesma causa raiz: informações superficiais das camadas rasas são diluídas por atualizações residuais repetidas. Mas a diferença está no método. MoDA não mexe na residual, apenas adiciona uma dimensão de profundidade à atenção, permitindo que camadas profundas acessem características rasas diretamente. AttnRes altera a conexão residual, substituindo a soma por atenção ponderada. Uma “cria uma rota nova”, a outra “renova a rota antiga”.

As duas publicações surgiram no mesmo dia, com rotas diferentes, mas objetivo comum. O problema da profundidade na atenção já é consenso na comunidade, a diferença está na abordagem.

Eficácia do AttnRes em diferentes tamanhos de modelos

Esquecer a estrutura de suporte

Voltando à questão inicial: por que o problema do deep layer idle só foi levado a sério em 2026?

Porque a conexão residual é extremamente útil. Resolve um problema urgente (desaparecimento do gradiente), com custo controlado (a degradação profunda é pouco perceptível em modelos pequenos), e alternativas ainda não maduras (ReZero, Highway Network não passaram por validação em larga escala). Ninguém tinha motivação para mexer nela. Não foi uma escolha deliberada, mas uma solução temporária esquecida. Como uma estrutura de suporte, foi construída e esquecida, e com o tempo virou uma parede de sustentação.

O efeito de diluição do sinal na residual — quanto mais profunda a rede, mais difícil de ouvir o sinal novo

O que realmente dificultou a descoberta do problema não foi a residual em si, mas o fato de que a atenção evoluiu principalmente em uma dimensão — a sequencial. Nos últimos oito anos, todas as melhorias na atenção — multi-head, agrupamento, esparsidade, linearidade — focaram na dimensão sequencial. Como tokens se relacionam entre si foi otimizado ao máximo. Mas e entre camadas? Essa questão nunca foi realmente questionada. A dimensão de profundidade é uma área cega da atenção.

MoDA e AttnRes abriram essa área cega de formas diferentes. MoDA adiciona uma segunda dimensão à atenção, permitindo operação em sequência e profundidade simultaneamente. AttnRes transforma a transmissão entre camadas em uma operação de atenção. Ambas apontam que atenção não deve ser só horizontal, mas também vertical.

Essa conclusão vai além dos artigos: muitas mecânicas fixas no Transformer operam apenas em uma dimensão. Cada camada deve ser sequencial, não pode pular. Cada cabeça de atenção calcula de forma independente, sem coordenação dinâmica. Cada token, por mais difícil, passa pelo mesmo caminho de cálculo. Essas escolhas foram feitas para facilitar o treinamento e a convergência.

A evolução do deep learning na última década, na sua essência, é devolver ao modelo a capacidade de decidir suas próprias estruturas. Convoluções fixas foram substituídas por atenção aprendível. Codificações de posição fixas por codificações rotativas aprendíveis. Distribuições de especialistas fixas por roteamento dinâmico. Agora, a forma de fluxo de informação na dimensão de profundidade também começa a ser decidida pela atenção.

Karpathy disse que ainda não levámos a sério o literal de “Attention is All You Need”. Talvez ele esteja certo. Mas não no sentido de “atenção basta”, e sim de “atenção ainda não foi usada o suficiente”. Ela evoluiu bastante na dimensão sequencial, mas na dimensão de profundidade, está apenas começando.

A profundidade é o próximo campo de batalha da atenção.

Fonte: Tencent Tech

Aviso de risco e isenção de responsabilidade

O mercado é volátil, invista com cautela. Este artigo não constitui recomendação de investimento pessoal, nem leva em conta objetivos, situação financeira ou necessidades específicas do leitor. O usuário deve avaliar se as opiniões, pontos de vista ou conclusões aqui apresentadas são compatíveis com sua situação. Investimentos são de responsabilidade do próprio.

Musk partilha artigo do Kimi gerando grande discussão no Vale do Silício, qual será o próximo campo de batalha do Attention?

A solução temporária mais eficaz

44% das camadas ficam ociosas

Adicionar profundidade à atenção

Não inovar, reformar

Esquecer a estrutura de suporte

Tópicos em destaque

Gate13thAnniversaryGlobalCelebration

TradFiIntroducesMultiLeverageFirst

IsraelStrikesIranBTCPlunges

CryptoMarketVolatility

CreatorLeaderboard

Gate Fun tendência

Skyhor

skyhorse

MDOG

Mars Dog

GT

EID

MEME

MEMECOIN

BUTTCOIN

BUTTCOIN

Fixar