Маск поделился статьей Kimi, вызвав большие дебаты в Кремниевой долине. Каков следующий фронт Attention?

Question

16 марта 2026 года команда Kimi опубликовала на arXiv статью под названием Attention Residuals, и всё быстро вышло из-под контроля. Маск ретвитнул, Карпати отметил: «Мы ещё не всерьёз воспринимали заголовок Attention is All You Need», а бывший соучредитель OpenAI Джерри Творек прямо ответил четырьмя словами — deep learning 2.0. Статья китайской команды по архитектуре вызвала такой уровень обсуждений в Кремниевой долине, что в прошлый раз подобное было, вероятно, с DeepSeek-V3.

Но несмотря на шум, большинство обсуждений ограничиваются уровнем «Кими придумал что-то новое, большие люди в восторге». Игнорируется то, что в тот же день команда Seed ByteDance и Университет Хуачжун совместно опубликовали другую статью под названием Mixture-of-Depths Attention (MoDA), решающую ту же проблему, но совершенно другим путём. За ту же неделю третья статья от Нанкинского университета с участием Дилхата Мухтара, Шивея Лю и других — When Does Sparsity Mitigate the Curse of Depth in LLMs — дала наиболее точный теоретический анализ патологии.

Три статьи появились почти одновременно, и все они нацелены на одну и ту же проблему. Это не случайность. Накопленная почти десятилетие структурная проблема наконец достигла критической точки, когда её нельзя игнорировать.

Проблема не в последовательности внимания. За последние годы внимание прошло много этапов эволюции — от многоголового внимания до группового поиска, MLA в DeepSeek и различных разреженных вариантов. Каждое поколение оптимизировало взаимодействие токенов друг с другом. Эта гонка вооружений была захватывающей, но скрывала один факт — способ передачи информации между слоями, который с 2017 года, с публикации статьи Transformer, остаётся неизменным. Осталась резидуационная связь: h = h + f(h), — операция сложения без обучаемых параметров.

Выходы всех слоёв складываются с равной весовой степенью. Нет выбора, нет забывания, нет обучения. Вклад каждого слоя равноправно добавляется в поток остаточной связи, независимо от того, учит ли он важные признаки или шум.

Резидуационная связь — самая успешная «временная мера» в истории глубокого обучения.

Самая удачная временная мера

Резидуационная связь была предложена Хаймином Хэ в ResNet в 2015 году. Идея очень проста: когда сеть достигает около двадцати слоёв, обучение становится невозможным из-за исчезновения градиентов, и параметры почти не обновляются. Тогда добавляют «скоростную магистраль», позволяющую входу напрямую пропускать слой и соединяться с выходом. Даже если слой ничего не выучил, информация и градиенты могут пройти по этой «скоростной дороге». Результат был мгновенным — ResNet увеличил глубину сети с двадцати до более ста слоёв. Через два года появился Transformer, и резидуационные связи были перенесены без изменений. С тех пор никто их не трогал.

Конечно, пытались. Variants like ReZero, FixUp, Highway Network позволяли делать резидуационные веса обучаемыми. Но ни один из них не стал доминирующей архитектурой, потому что резидуационные связи оказались очень удобными. Простые, стабильные, почти не увеличивающие вычислительные затраты, при этом в масштабных моделях их побочные эффекты ещё не проявились.

44% слоёв простаивают

Что за побочные эффекты? В начале 2025 года команда Университета Сиху, Эмори и MPI под руководством Шивея Лю опубликовала статью «The Curse of Depth», а в марте того же года Нанкинский университет с Мухтаром и другими — When Does Sparsity Mitigate the Curse of Depth in LLMs — дали количественную диагностику. В рамках современных архитектур глубокие трансформеры всё больше приближаются к тождественной (identity) функции: что подаёшь — то и получаешь. Эта «слойность» становится практически бессмысленной.

Цифры ужасают. Исследователи используют «оценку полезности» для определения, делает ли слой значимую трансформацию. В модели из 12 слоёв все работают. В 16 — три слоя «бесполезны». В 24 — девять. В 32 — 14, то есть 44% слоёв почти ничего не учат. Количество параметров выросло с 900 миллионов до 2,3 миллиарда, увеличение затрат на 156%, а эффективных слоёв — с 12 до 18.

Количественная диагностика проклятия глубины — эффективность роста числа слоёв

Причина напрямую связана с работой резидуационной связи. Каждый слой добавляет свой выход к «основной магистрали» через резидуацию. Чем глубже сеть, тем больше сигналов накапливается в магистрали (можно представить как «фоновые шумы»), а новые сигналы ограничены по амплитуде. В глубине новые сигналы затеряются в шуме, и вход практически совпадает с выходом — слой становится бессмысленным.

Резидуационная связь решает проблему «передачи градиента», но создаёт проблему «смысловой глубины».

В эпоху больших моделей это стоит очень дорого. Один слой — десятки миллиардов операций с плавающей точкой. 128-слойная модель, где 44% слоёв простаивают, тратит почти шестьдесят процентов вычислений на бесполезную работу. Годами оптимизируя эффективность inference — квантование, дистилляция, pruning, разреженность внимания, KV-кэш — все эти усилия направлены на «полезные» вычисления.

Самая большая «чёрная дыра» эффективности — не квадратичная сложность внимания, а операция сложения, которая с 2015 года остаётся неизменной.

Добавление глубины в внимание

Команда Seed ByteDance выбрала другой путь. Вместо изменения резидуационной связи они добавили второй измерение в сам механизм внимания.

Стандартный трансформер работает только по последовательности — каждый токен смотрит на другие токены на том же слое через ключи и значения. MoDA же расширяет это, включив в внимание ключи и значения из предыдущих слоёв. Когда слой L вычисляет внимание, он не только смотрит на токены того же слоя, но и может обратиться к KV из слоёв от 1 до L-1. В результате, последовательность и глубина объединяются в один Softmax.

Идея проста, но реализовать её без потери скорости — сложная задача.

MoDA — механизм двойного внимания: последовательность и глубина объединены в один Softmax

Объединение всех KV из истории слоёв в один блок приводит к взрыву вычислений. В 32-слойной модели слой 32 должен учитывать все 31 предыдущий KV, что увеличивает «эффективную длину последовательности» в 32 раза. Основная инженерная идея MoDA — «группировка и перестановка»: выбирается часть исторических слоёв KV, и они переставляются в последовательный блок памяти, чтобы GPU мог эффективно выполнять матричные умножения.

Конкретно, MoDA вводит механизм «глубинного потока» — не все слои смотрят на все предыдущие, а через обучаемый маршрутизатор выбирают наиболее релевантные. Это похоже на подход Mixture-of-Experts — не активировать всех экспертов, а динамически выбирать нужных. Только здесь «эксперты» — это слои разной глубины.

На длине последовательности 64K эффективность MoDA достигает 97.3% от FlashAttention-2. Включение глубинного внимания увеличивает задержку менее чем на 3%.

Стратегия группировки и перестановки — перенос KV из разных слоёв в непрерывную память

На модели с 1,5 миллиарда параметров (по формуле обучения OLMo2) MoDA показывает в среднем +2.11% по 10 задачам, при дополнительных вычислительных затратах всего 3.7%. На первый взгляд — мало, но это архитектурное улучшение, а не результат большего объёма данных или более длительного обучения. И что интересно — эффект усиливается с ростом модели: при увеличении глубины проблема «проклятия глубины» становится более выраженной, а MoDA — более эффективной.

Сравнение результатов по 10 задачам

Интересно, что MoDA и Post-Norm вызывают противоположные реакции. Большинство крупных моделей используют Pre-Norm (нормализация перед вниманием), потому что Post-Norm (нормализация после внимания) теоретически лучше, но при этом нестабильна в обучении. Механизм глубинных KV в MoDA даёт Post-Norm дополнительный градиентный канал, и проблема нестабильности исчезает.

Комбинация MoDA + Post-Norm открывает возможность пересмотра компромиссов, сделанных ради стабильности обучения (использование Pre-Norm), — возможно, их можно отменить.

Разница в валидационной потере между Pre-Norm и Post-Norm после добавления глубинных KV

Без новых путей — только переосмысление старых

MoDA не трогает резидуационные связи, а добавляет отдельный путь. В тот же день команда Kimi опубликовала AttnRes, который идёт более прямо — он работает с самой резидуационной связью.

Стандартная резидуационная связь просто складывает все предыдущие выходы с равными весами и добавляет их к текущему. AttnRes заменяет это фиксированное сложение на механизм внимания, где каждый слой использует своё состояние как запрос, а все предыдущие слои — как кандидаты. Внимание решает, какие признаки из прошлого важны для текущего слоя, и присваивает им веса.

Резидуационная связь превращается из фиксированной формулы в динамический маршрут, обучаемый вниманием.

Основная идея AttnRes — заменить равноправное сложение на внимательное взвешивание

Это увеличивает вычислительную нагрузку, так как каждый слой дополнительно выполняет глубокое внимание. Команда Kimi использовала стратегию блоков (Block AttnRes), разделяя слои на блоки и внутри каждого блока выполняя полное внимание, а между блоками — только агрегирующие представления.

AttnRes уже интегрирован в Kimi Linear (всего 480 млрд параметров, 30 млрд активных), и на 1.4 трлн токенов показал стабильные результаты. Технические детали широко освещены, здесь важен контраст с MoDA.

Диагностика и сравнение

Общие причины обеих подходов — в том, что глубокие слои получают размытые или искажённые признаки из-за повторных обновлений через резидуацию. Но подходы разные: MoDA добавляет глубинное измерение в внимание, позволяя глубинным слоям обходить резидуацию, а AttnRes — меняет сам механизм резидуации, делая его внимательным.

Общая идея — внимание должно работать не только по горизонтали, но и по вертикали (глубине). Это важное расширение, которое может изменить архитектурные принципы трансформеров.

Заключение

Возвращаясь к вопросу, почему проблема «глубокого простоя» стала актуальной только в 2026 году, ответ — потому что резидуационные связи были слишком удобны. Они решали проблему исчезновения градиентов, были простыми и стабильными, и никто не хотел их трогать. Но это было временное решение, которое со временем стало «несущей стеной» — мешающей развитию.

Проблема в том, что все эволюции внимания — мультиголовость, разреженность, линейность — развивались только в горизонтальной плоскости. А вопрос о том, как слои взаимодействуют друг с другом по вертикали, долго оставался без внимания. MoDA и AttnRes открыли этот «слепой» угол.

Теперь ясно, что внимание должно работать не только по горизонтали, но и по вертикали — внутри глубины. Это следующий фронт развития трансформеров.

Источник: Tencent Tech

DEEPSEEK0,75%

Посмотреть Оригинал

Маск поделился статьей Kimi, вызвав большие дебаты в Кремниевой долине. Каков следующий фронт Attention?

Самая удачная временная мера

44% слоёв простаивают

Количественная диагностика проклятия глубины — эффективность роста числа слоёв

Добавление глубины в внимание

MoDA — механизм двойного внимания: последовательность и глубина объединены в один Softmax

Стратегия группировки и перестановки — перенос KV из разных слоёв в непрерывную память

Сравнение результатов по 10 задачам

Разница в валидационной потере между Pre-Norm и Post-Norm после добавления глубинных KV

Без новых путей — только переосмысление старых

Основная идея AttnRes — заменить равноправное сложение на внимательное взвешивание

Диагностика и сравнение

Заключение

Популярные темы

Gate13thAnniversaryGlobalCelebration

TradFiIntroducesMultiLeverageFirst

IsraelStrikesIranBTCPlunges

CryptoMarketVolatility

CreatorLeaderboard

Горячее на Gate Fun

Skyhor

skyhorse

MDOG

Mars Dog

GT

EID

MEME

MEMECOIN

BUTTCOIN

BUTTCOIN

Закрепить