Маск ретранслював статтю Kimi, викликавши велику дискусію в Кремнієвій долині, яка полаганням є наступним полем битви для Attention?

16 березня 2026 року команда Kimi опублікувала на arXiv статтю під назвою Attention Residuals, і ситуація швидко вийшла з-під контролю. Маск її поширив, Карпаті зробив зауваження: «Ми ще не по-справжньому усвідомили значення назви Attention is All You Need», колишній співзасновник OpenAI Джеррі Творек одразу дав коротку характеристику — deep learning 2.0. Стаття від китайської команди з архітектурою неймовірно викликала таку дискусію у Кремнієвій долині, що востаннє подібне траплялося, мабуть, з DeepSeek-V3.

Але, попри галас, більшість обговорень зводилися до рівня «Kimi створив новий інноваційний підхід, великі гравці радіють». Менше уваги приділялося тому, що в той самий день команда Seed ByteDance і університет Цінхуа спільно опублікували іншу роботу — Mixture-of-Depths Attention (MoDA), яка вирішує ту саму проблему, але іншим шляхом. За тиждень до цього, третя стаття від Нанкінського університету (Dilxat Muhtar), MPI (Shiwei Liu) та інших — When Does Sparsity Mitigate the Curse of Depth in LLMs — дала найточніший теоретичний аналіз патології.

Три статті з’явилися майже одночасно, і всі вони націлені на одне й те саме. Це не випадковість. Вже майже десять років ігнорується структурна проблема, і тепер вона досягла критичної межі, коли її потрібно вирішувати.

Проблема не в послідовності уваги. За останні кілька років увага пройшла багато еволюційних етапів — від багатоголової уваги до групової, до MLA в DeepSeek, до різних розріджених варіантів — кожен з них оптимізує спосіб взаємного спостереження токенів. Ця гонка озброєнь була захоплюючою, але вона приховує один факт — спосіб передачі інформації між шарами, з 2017 року, з моменту появи Transformer, залишається незмінним. Це residual-зв’язок: h = h + f(h), — операція додавання без будь-яких навчальних параметрів.

Вихід кожного шару — рівноправна сума всіх попередніх. Тут немає вибору, немає забування, немає навчання. Вклад кожного шару рівнозначний, і він безпосередньо додається до residual-потоку, незалежно від того, чи навчився він виділяти ключові ознаки чи шум.

Residual-зв’язок — найуспішніше «тимчасове рішення» в історії глибокого навчання.

Найуспішніше тимчасове рішення

Residual-зв’язок був запропонований Хе Каймінгом у 2015 році в ResNet. Ідея дуже проста: коли мережа досягає понад двадцяти шарів, навчання стає проблематичним через зникнення градієнтів, і параметри глибоких шарів майже не оновлюються. Тому кожен шар отримав «швидку дорогу» — прямий пропуск через residual-зв’язок, що дозволяє інформації та градієнтам безперешкодно проходити через цю «швидку дорогу». Навіть якщо цей шар нічого не навчив, інформація і градієнт можуть пройти цю дорогу. Результат був миттєвим — ResNet підняв глибину мережі з двадцяти кількох до понад сотні шарів. Через два роки з’явився Transformer, і residual-зв’язки були перенесені без змін. Відтоді цю ідею ніхто не змінював.

Звісно, пробували різні варіанти. ReZero, FixUp, Highway Network — всі вони дозволяли навчанню residual-зв’язків бути навчальними вагами. Але жоден з них не став основою для великих моделей, бо residual-зв’язки були надто зручними. Простий, стабільний, майже без додаткових обчислень, у масштабах моделей того часу їх побічні ефекти ще не проявилися.

44% шарів — «порожня ходьба»

Які побічні ефекти? На початку 2025 року команда з Університету Сіху, Еморі та MPI (Shiwei Liu) опублікувала роботу «The Curse of Depth», а у березні того ж року команда з Нанкінського університету (Dilxat Muhtar) та інших — «When Does Sparsity Mitigate the Curse of Depth in LLMs» — надали кількісну діагностику. Виявилося, що у сучасних великих моделях глибокі трансформації все більше наближаються до ідентичної відображення — що б не ввів користувач, те й виходить. Ця «порожня» шара — фактично відсутність будь-якої зміни.

Цифри дуже непривабливі. Вчені ввели поняття «корисності» — оцінки, наскільки кожен шар виконує значущу трансформацію. У 12-шаровій моделі всі шари працюють. У 16-шаровій — три з них марні. У 24 — дев’ять. У 32 — 14, тобто 44% шарів майже нічого не навчилися. Параметрів — 9 мільярдів, але зросли до 23 мільярдів (на 156%), і ефективних шарів — з 12 до 18.

Кількісна діагностика «прокляття глибини» — зменшення ефективних шарів із зростанням масштабів моделі Причина — безпосередньо пов’язана з роботою residual-зв’язків. Вихід кожного шару додається до «основної магістралі» через residual-зв’язок. З ростом глибини сигнал у цій магістралі накопичується, наче «фонова гучність», але кожен новий сигнал має обмежену амплітуду. У глибоких шарах новий сигнал губиться у фоновому шумі, і вхід і вихід майже ідентичні — цей шар стає марним.

Residual-зв’язки вирішили проблему «передавання градієнта», але створили проблему «змістовності глибини».

У епоху великих моделей ця ціна — справжні гроші. Один шар — сотні мільярдів операцій з плаваючою точкою. 128-шаровий модель з 44% «порожніх» шарів — майже 60 шарів, що марно витрачають обчислювальні ресурси. За кілька років спільноти вдосконалювали ефективність inference — кілька методів: кількота, дистиляція, pruning, розріджена увага, компресія KV-кешу — все для оптимізації «корисних» обчислень.

Найбільша «чорна діра» у ефективності — не квадратична складність уваги, а операція додавання, яка з 2015 року залишається незмінною.

Додати глибину уваги

Команда з ByteDance (MoDA) обрала інший шлях. Вона не торкалася residual-зв’язків, а додала другий вимір безпосередньо до механізму уваги.

Стандартний Transformer увагу працює лише у послідовності — кожен токен дивиться на інші токени того ж рівня через ключі та значення. У MoDA зміни дуже інтуїтивні — у увагу додаються ключі та значення з попередніх рівнів. Коли токен на рівні L виконує увагу, він може бачити не лише токени того ж рівня, а й KV з рівнів від 1 до L-1. Послідовність і глибина тепер об’єднані у один Softmax.

Ідея проста, але складність — зробити це так, щоб не сповільнити швидкість.

Двовимірна увага MoDA — об’єднання у Softmax послідовності та глибини Якщо зберігати всі KV з історичних рівнів, обчислювальна складність вибухне. У 32-шаровій моделі, щоб увагу на рівні 32 враховувала всі KV з перших 31 рівня, довжина послідовності збільшується у 32 рази. Основна ідея MoDA — «групове перерозподілення»: вибирати лише частину KV з історичних рівнів, перерозподіляти їх по групах у пам’ять, щоб GPU міг ефективно виконувати матричні множення.

Конкретно, MoDA вводить механізм «глибокого потоку» — не кожен рівень дивиться на всі історичні, а через навчальний маршрутизатор обирає найбільш релевантні. Це схоже на ідею Mixture-of-Experts — не активувати всіх експертів, а динамічно обирати потрібних. Тут «експерти» — різні рівні історії.

При довжині послідовності 64K, ефективність MoDA досягає 97.3% від FlashAttention-2. Додано глибоку увагу — швидкість зменшилася менш ніж на 3%.

Групове перерозподілення — переміщення KV з історичних рівнів у безперервну пам’ять На моделі з 1.5 мільярдами параметрів (з тренувальної формули OLMo2) у середньому по 10 downstream-завданнях продуктивність підвищилася на 2.11%, додаткові обчислення — лише 3.7%. Спочатку здається незначним, але це архітектурне покращення, яке не базується на додаткових даних або довшому тренуванні. Більше того, ефект MoDA зростає з масштабом моделі — у більших моделях глибока деградація ще сильніша, і MoDA її краще компенсує.

Порівняння продуктивності MoDA на 10 задачах Ще цікавіше — реакція MoDA і Post-Norm. У більшості великих моделей переважає Pre-Norm (спершу нормалізація, потім увага), бо Post-Norm (спершу увага, потім нормалізація) теоретично краще, але навчання нестабільне. Глибока KV-увага у MoDA дає Post-Norm додатковий градієнтний канал, і проблеми нестабільності вже не стають критичними.

Комбінація MoDA + Post-Norm відкриває нові можливості — можливо, компроміси, зроблені для стабільності тренування (Pre-Norm), тепер можна скасувати.

Різниця у валідаційних втратах між Pre-Norm і Post-Norm з глибокою KV-увагою Не винаходимо нове, оновлюємо старе

MoDA не торкалася residual-зв’язків, вона обрала інший шлях. У той самий день команда Kimi опублікувала AttnRes — більш прямий підхід, що безпосередньо працює з residual-зв’язками.

Стандартний residual-зв’язок просто додає рівноправно вихід усіх попередніх шарів до основної магістралі. Без вибору, без забування. AttnRes замінює цю фіксовану рівноправну суму на увагу — кожен шар використовує власний стан як запит, а всі попередні виходи — як кандидатів. За допомогою уваги визначають, які з попередніх ознак корисні для поточного шару і з якими вагами.

Residual-зв’язок перетворюється з фіксованої формули на динамічний маршрут, що навчається.

Головна ідея AttnRes — замінити рівноправну суму увагою Це означає, що кожен шар додатково виконує увагу, що збільшує обчислювальні витрати. Команда Kimi використовує блокову стратегію (Block AttnRes): розбиває мережу на кілька блоків, у кожному — виконує повну глибоку увагу, а між блоками — лише агреговані представлення.

AttnRes вже інтегрована у Kimi Linear (загалом 48 мільярдів параметрів, з яких 3 мільярди — активні), пройшла попереднє тренування на 1.4 трильйона токенів і показала стабільні результати на різних масштабах моделей. Деталі вже широко висвітлювалися, тому тут не повторюємо. Головна причина згадати — порівняння з маршрутом MoDA.

Графіки тренувань AttnRes і результати абляцій Обидва підходи виявили однакову причину — глибокі ознаки з поверхневих шарів багаторазово розбавляються residual-оновленнями. Але підходи різні. MoDA не торкалася residual-зв’язків, а додала глибину до уваги, щоб глибокі шари могли обходити residual-потік і безпосередньо отримувати поверхневі ознаки. AttnRes ж безпосередньо змінює residual-зв’язки, замінюючи рівноправну суму увагою з вагами. Один — «будує новий шлях», інший — «оновлює старий».

Обидві статті з’явилися в один день, різні підходи, але ціль одна — розв’язати проблему глибини. Це не випадковість. Проблема глибокої уваги вже стала загальним знанням у дослідницькому співтоваристві, різниця лише у підходах.

Консистентність результатів AttnRes у різних масштабах Забули зняти тимчасові конструкції

Повертаючись до початкового питання — чому проблема «порожніх» глибоких шарів стала такою актуальною лише у 2026 році?

Бо residual-зв’язки були надзвичайно зручними. Вони вирішували найнагальнішу проблему — зникнення градієнтів, — і при цьому були контрольованими за ціною (у малих моделях глибока деградація не проявлялася). Альтернативи були недостатньо зрілими — ReZero, Highway Network — і не проходили масштабних перевірок. Тому ніхто не прагнув їх змінювати. Це не було свідомим дизайнерським вибором, а швидше — тимчасовою мірою, яку з часом забули. Спершу побудували каркас, а потім — забули його зняти. З часом всі почали вважати його несучою стіною.

Ефект розбавлення сигналу residual-зв’язків — чим глибше, тим важче почути новий сигнал Але справжня причина, чому цю проблему важко помітити, — у тому, що увага довгий час працювала лише в одному вимірі. За вісім років її еволюції — від багатоголової до групової, розрідженої, лінійної — все було зосереджено на послідовності. Як токени взаємодіють один з одним — це оптимізували безліч разів. Але як між шарами передавати інформацію? Це питання ніколи не ставили. Глибина — це «сліпа зона» уваги.

MoDA і AttnRes по-різному відкривають цю сліпу зону. MoDA додає другий вимір уваги, щоб вона могла працювати і у послідовності, і у глибині одночасно. AttnRes ж перетворює передачу інформації між шарами у увагу — кожен шар навчається динамічно маршрутизувати інформацію. Обидва підходи ведуть до одного й того ж висновку: увага має дивитися не лише горизонтально, а й вертикально.

Це розширення — більше, ніж просто технічна деталь. У Transformer ще багато фіксованих механізмів, що працюють лише у одному вимірі. Кожен шар виконується послідовно, без пропусків. Кожен уваговий голівка — незалежна, без динамічної координації. Всі токени проходять однаковий шлях, незалежно від складності. Це — компроміс для забезпечення тренування і стабільності.

За останні десять років розвитку глибокого навчання, якщо абстрагувати найвищий рівень, — це одна ідея: передати все більше структурних рішень від людського дизайнера до самої моделі. Замість ручного проектування згорток — навчальні увагові механізми. Замість фіксованих позиційних кодів — навчальні обертальні коди. Замість фіксованих маршрутизацій — навчальні маршрути. Тепер і спосіб передачі інформації у глибокому вимірі починає визначатися увагою сама.

Карпаті каже, що ми ще не сприйняли буквально ідею «Attention is All You Need». Можливо, він правий. Але не у тому сенсі, що «увага достатня», а у тому, що «уваги ще не використано досить». Вона вже пройшла багато еволюцій у послідовності, але у глибині — тільки починає.

Глибина — наступний фронт уваги.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити