Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Launchpad
Будьте першими в наступному великому проекту токенів
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Маск ретранслював статтю Kimi, викликавши велику дискусію в Кремнієвій долині, яка полаганням є наступним полем битви для Attention?
16 березня 2026 року команда Kimi опублікувала на arXiv статтю під назвою Attention Residuals, і ситуація швидко вийшла з-під контролю. Маск її поширив, Карпаті зробив зауваження: «Ми ще не по-справжньому усвідомили значення назви Attention is All You Need», колишній співзасновник OpenAI Джеррі Творек одразу дав коротку характеристику — deep learning 2.0. Стаття від китайської команди з архітектурою неймовірно викликала таку дискусію у Кремнієвій долині, що востаннє подібне траплялося, мабуть, з DeepSeek-V3.
Але, попри галас, більшість обговорень зводилися до рівня «Kimi створив новий інноваційний підхід, великі гравці радіють». Менше уваги приділялося тому, що в той самий день команда Seed ByteDance і університет Цінхуа спільно опублікували іншу роботу — Mixture-of-Depths Attention (MoDA), яка вирішує ту саму проблему, але іншим шляхом. За тиждень до цього, третя стаття від Нанкінського університету (Dilxat Muhtar), MPI (Shiwei Liu) та інших — When Does Sparsity Mitigate the Curse of Depth in LLMs — дала найточніший теоретичний аналіз патології.
Три статті з’явилися майже одночасно, і всі вони націлені на одне й те саме. Це не випадковість. Вже майже десять років ігнорується структурна проблема, і тепер вона досягла критичної межі, коли її потрібно вирішувати.
Проблема не в послідовності уваги. За останні кілька років увага пройшла багато еволюційних етапів — від багатоголової уваги до групової, до MLA в DeepSeek, до різних розріджених варіантів — кожен з них оптимізує спосіб взаємного спостереження токенів. Ця гонка озброєнь була захоплюючою, але вона приховує один факт — спосіб передачі інформації між шарами, з 2017 року, з моменту появи Transformer, залишається незмінним. Це residual-зв’язок: h = h + f(h), — операція додавання без будь-яких навчальних параметрів.
Вихід кожного шару — рівноправна сума всіх попередніх. Тут немає вибору, немає забування, немає навчання. Вклад кожного шару рівнозначний, і він безпосередньо додається до residual-потоку, незалежно від того, чи навчився він виділяти ключові ознаки чи шум.
Residual-зв’язок — найуспішніше «тимчасове рішення» в історії глибокого навчання.
Найуспішніше тимчасове рішення
Residual-зв’язок був запропонований Хе Каймінгом у 2015 році в ResNet. Ідея дуже проста: коли мережа досягає понад двадцяти шарів, навчання стає проблематичним через зникнення градієнтів, і параметри глибоких шарів майже не оновлюються. Тому кожен шар отримав «швидку дорогу» — прямий пропуск через residual-зв’язок, що дозволяє інформації та градієнтам безперешкодно проходити через цю «швидку дорогу». Навіть якщо цей шар нічого не навчив, інформація і градієнт можуть пройти цю дорогу. Результат був миттєвим — ResNet підняв глибину мережі з двадцяти кількох до понад сотні шарів. Через два роки з’явився Transformer, і residual-зв’язки були перенесені без змін. Відтоді цю ідею ніхто не змінював.
Звісно, пробували різні варіанти. ReZero, FixUp, Highway Network — всі вони дозволяли навчанню residual-зв’язків бути навчальними вагами. Але жоден з них не став основою для великих моделей, бо residual-зв’язки були надто зручними. Простий, стабільний, майже без додаткових обчислень, у масштабах моделей того часу їх побічні ефекти ще не проявилися.
44% шарів — «порожня ходьба»
Які побічні ефекти? На початку 2025 року команда з Університету Сіху, Еморі та MPI (Shiwei Liu) опублікувала роботу «The Curse of Depth», а у березні того ж року команда з Нанкінського університету (Dilxat Muhtar) та інших — «When Does Sparsity Mitigate the Curse of Depth in LLMs» — надали кількісну діагностику. Виявилося, що у сучасних великих моделях глибокі трансформації все більше наближаються до ідентичної відображення — що б не ввів користувач, те й виходить. Ця «порожня» шара — фактично відсутність будь-якої зміни.
Цифри дуже непривабливі. Вчені ввели поняття «корисності» — оцінки, наскільки кожен шар виконує значущу трансформацію. У 12-шаровій моделі всі шари працюють. У 16-шаровій — три з них марні. У 24 — дев’ять. У 32 — 14, тобто 44% шарів майже нічого не навчилися. Параметрів — 9 мільярдів, але зросли до 23 мільярдів (на 156%), і ефективних шарів — з 12 до 18.
Кількісна діагностика «прокляття глибини» — зменшення ефективних шарів із зростанням масштабів моделі Причина — безпосередньо пов’язана з роботою residual-зв’язків. Вихід кожного шару додається до «основної магістралі» через residual-зв’язок. З ростом глибини сигнал у цій магістралі накопичується, наче «фонова гучність», але кожен новий сигнал має обмежену амплітуду. У глибоких шарах новий сигнал губиться у фоновому шумі, і вхід і вихід майже ідентичні — цей шар стає марним.
Residual-зв’язки вирішили проблему «передавання градієнта», але створили проблему «змістовності глибини».
У епоху великих моделей ця ціна — справжні гроші. Один шар — сотні мільярдів операцій з плаваючою точкою. 128-шаровий модель з 44% «порожніх» шарів — майже 60 шарів, що марно витрачають обчислювальні ресурси. За кілька років спільноти вдосконалювали ефективність inference — кілька методів: кількота, дистиляція, pruning, розріджена увага, компресія KV-кешу — все для оптимізації «корисних» обчислень.
Найбільша «чорна діра» у ефективності — не квадратична складність уваги, а операція додавання, яка з 2015 року залишається незмінною.
Додати глибину уваги
Команда з ByteDance (MoDA) обрала інший шлях. Вона не торкалася residual-зв’язків, а додала другий вимір безпосередньо до механізму уваги.
Стандартний Transformer увагу працює лише у послідовності — кожен токен дивиться на інші токени того ж рівня через ключі та значення. У MoDA зміни дуже інтуїтивні — у увагу додаються ключі та значення з попередніх рівнів. Коли токен на рівні L виконує увагу, він може бачити не лише токени того ж рівня, а й KV з рівнів від 1 до L-1. Послідовність і глибина тепер об’єднані у один Softmax.
Ідея проста, але складність — зробити це так, щоб не сповільнити швидкість.
Двовимірна увага MoDA — об’єднання у Softmax послідовності та глибини Якщо зберігати всі KV з історичних рівнів, обчислювальна складність вибухне. У 32-шаровій моделі, щоб увагу на рівні 32 враховувала всі KV з перших 31 рівня, довжина послідовності збільшується у 32 рази. Основна ідея MoDA — «групове перерозподілення»: вибирати лише частину KV з історичних рівнів, перерозподіляти їх по групах у пам’ять, щоб GPU міг ефективно виконувати матричні множення.
Конкретно, MoDA вводить механізм «глибокого потоку» — не кожен рівень дивиться на всі історичні, а через навчальний маршрутизатор обирає найбільш релевантні. Це схоже на ідею Mixture-of-Experts — не активувати всіх експертів, а динамічно обирати потрібних. Тут «експерти» — різні рівні історії.
При довжині послідовності 64K, ефективність MoDA досягає 97.3% від FlashAttention-2. Додано глибоку увагу — швидкість зменшилася менш ніж на 3%.
Групове перерозподілення — переміщення KV з історичних рівнів у безперервну пам’ять На моделі з 1.5 мільярдами параметрів (з тренувальної формули OLMo2) у середньому по 10 downstream-завданнях продуктивність підвищилася на 2.11%, додаткові обчислення — лише 3.7%. Спочатку здається незначним, але це архітектурне покращення, яке не базується на додаткових даних або довшому тренуванні. Більше того, ефект MoDA зростає з масштабом моделі — у більших моделях глибока деградація ще сильніша, і MoDA її краще компенсує.
Порівняння продуктивності MoDA на 10 задачах Ще цікавіше — реакція MoDA і Post-Norm. У більшості великих моделей переважає Pre-Norm (спершу нормалізація, потім увага), бо Post-Norm (спершу увага, потім нормалізація) теоретично краще, але навчання нестабільне. Глибока KV-увага у MoDA дає Post-Norm додатковий градієнтний канал, і проблеми нестабільності вже не стають критичними.
Комбінація MoDA + Post-Norm відкриває нові можливості — можливо, компроміси, зроблені для стабільності тренування (Pre-Norm), тепер можна скасувати.
Різниця у валідаційних втратах між Pre-Norm і Post-Norm з глибокою KV-увагою Не винаходимо нове, оновлюємо старе
MoDA не торкалася residual-зв’язків, вона обрала інший шлях. У той самий день команда Kimi опублікувала AttnRes — більш прямий підхід, що безпосередньо працює з residual-зв’язками.
Стандартний residual-зв’язок просто додає рівноправно вихід усіх попередніх шарів до основної магістралі. Без вибору, без забування. AttnRes замінює цю фіксовану рівноправну суму на увагу — кожен шар використовує власний стан як запит, а всі попередні виходи — як кандидатів. За допомогою уваги визначають, які з попередніх ознак корисні для поточного шару і з якими вагами.
Residual-зв’язок перетворюється з фіксованої формули на динамічний маршрут, що навчається.
Головна ідея AttnRes — замінити рівноправну суму увагою Це означає, що кожен шар додатково виконує увагу, що збільшує обчислювальні витрати. Команда Kimi використовує блокову стратегію (Block AttnRes): розбиває мережу на кілька блоків, у кожному — виконує повну глибоку увагу, а між блоками — лише агреговані представлення.
AttnRes вже інтегрована у Kimi Linear (загалом 48 мільярдів параметрів, з яких 3 мільярди — активні), пройшла попереднє тренування на 1.4 трильйона токенів і показала стабільні результати на різних масштабах моделей. Деталі вже широко висвітлювалися, тому тут не повторюємо. Головна причина згадати — порівняння з маршрутом MoDA.
Графіки тренувань AttnRes і результати абляцій Обидва підходи виявили однакову причину — глибокі ознаки з поверхневих шарів багаторазово розбавляються residual-оновленнями. Але підходи різні. MoDA не торкалася residual-зв’язків, а додала глибину до уваги, щоб глибокі шари могли обходити residual-потік і безпосередньо отримувати поверхневі ознаки. AttnRes ж безпосередньо змінює residual-зв’язки, замінюючи рівноправну суму увагою з вагами. Один — «будує новий шлях», інший — «оновлює старий».
Обидві статті з’явилися в один день, різні підходи, але ціль одна — розв’язати проблему глибини. Це не випадковість. Проблема глибокої уваги вже стала загальним знанням у дослідницькому співтоваристві, різниця лише у підходах.
Консистентність результатів AttnRes у різних масштабах Забули зняти тимчасові конструкції
Повертаючись до початкового питання — чому проблема «порожніх» глибоких шарів стала такою актуальною лише у 2026 році?
Бо residual-зв’язки були надзвичайно зручними. Вони вирішували найнагальнішу проблему — зникнення градієнтів, — і при цьому були контрольованими за ціною (у малих моделях глибока деградація не проявлялася). Альтернативи були недостатньо зрілими — ReZero, Highway Network — і не проходили масштабних перевірок. Тому ніхто не прагнув їх змінювати. Це не було свідомим дизайнерським вибором, а швидше — тимчасовою мірою, яку з часом забули. Спершу побудували каркас, а потім — забули його зняти. З часом всі почали вважати його несучою стіною.
Ефект розбавлення сигналу residual-зв’язків — чим глибше, тим важче почути новий сигнал Але справжня причина, чому цю проблему важко помітити, — у тому, що увага довгий час працювала лише в одному вимірі. За вісім років її еволюції — від багатоголової до групової, розрідженої, лінійної — все було зосереджено на послідовності. Як токени взаємодіють один з одним — це оптимізували безліч разів. Але як між шарами передавати інформацію? Це питання ніколи не ставили. Глибина — це «сліпа зона» уваги.
MoDA і AttnRes по-різному відкривають цю сліпу зону. MoDA додає другий вимір уваги, щоб вона могла працювати і у послідовності, і у глибині одночасно. AttnRes ж перетворює передачу інформації між шарами у увагу — кожен шар навчається динамічно маршрутизувати інформацію. Обидва підходи ведуть до одного й того ж висновку: увага має дивитися не лише горизонтально, а й вертикально.
Це розширення — більше, ніж просто технічна деталь. У Transformer ще багато фіксованих механізмів, що працюють лише у одному вимірі. Кожен шар виконується послідовно, без пропусків. Кожен уваговий голівка — незалежна, без динамічної координації. Всі токени проходять однаковий шлях, незалежно від складності. Це — компроміс для забезпечення тренування і стабільності.
За останні десять років розвитку глибокого навчання, якщо абстрагувати найвищий рівень, — це одна ідея: передати все більше структурних рішень від людського дизайнера до самої моделі. Замість ручного проектування згорток — навчальні увагові механізми. Замість фіксованих позиційних кодів — навчальні обертальні коди. Замість фіксованих маршрутизацій — навчальні маршрути. Тепер і спосіб передачі інформації у глибокому вимірі починає визначатися увагою сама.
Карпаті каже, що ми ще не сприйняли буквально ідею «Attention is All You Need». Можливо, він правий. Але не у тому сенсі, що «увага достатня», а у тому, що «уваги ще не використано досить». Вона вже пройшла багато еволюцій у послідовності, але у глибині — тільки починає.
Глибина — наступний фронт уваги.