Ян Чжілін GTC 2026 виступ: розкриття технічного шляху Kimi, обговорення "вузьких місць масштабування"

robot
Генерація анотацій у процесі

新浪科技 повідомляє 18 березня вранці, на конференції GTC 2026 NVIDIA засновник Kimi Ян Чжілін поділився думками про те, що для постійного прориву в межах інтелекту великих моделей необхідно реконструювати базові компоненти, такі як оптимізатори, механізми уваги та залишкові з’єднання.

Після офіційного випуску Kimi K2.5 наприкінці січня цього року Ян Чжілін вперше систематично розкрив технічну дорожню карту цієї моделі. Він узагальнив логіку еволюції Kimi у три взаємопов’язані виміри: ефективність токенів, довгий контекст і кластери агентів (Agent Swarms). На його думку, сучасне масштабування вже не полягає лише у нарощуванні ресурсів, а в одночасному пошуку масштабних ефектів у обчислювальній ефективності, довготривалій пам’яті та автоматизованій співпраці. Якщо помножити технологічні здобутки цих трьох вимірів, модель продемонструє рівень інтелекту, що значно перевищує сучасний.

Технічна реконструкція — це основна тема виступу. Ян Чжілін зазначив, що багато технічних стандартів, які широко використовуються в галузі, по суті, є продуктами восьми-дев’яти років тому і поступово стають обмеженнями для масштабування.

З 2014 року оптимізатор Adam вважається стандартом галузі, але у тренуванні надзвичайно великих моделей з’явилася тенденція шукати альтернативи, що забезпечують вищу ефективність токенів. Команда Kimi експериментально підтвердила значний потенціал Muon-оптимізатора у підвищенні ефективності токенів, але при масштабуванні до трильйонних параметрів у тренуванні моделі K2 виникли проблеми стабільності через вибух логітів, що спричиняв розбігання моделі. Для вирішення цієї проблеми команда розробила та відкрила MuonClip — оптимізатор, який за допомогою ітерацій Newton-Schulz у поєднанні з механізмом QK-Clip повністю вирішує проблему вибуху логітів і одночасно забезпечує подвоєну обчислювальну ефективність порівняно з традиційним AdamW.

Щодо механізму повної уваги (Full Attention), який з’явився у 2017 році, Ян Чжілін представив Kimi Linear на базі архітектури KDA. Це гібридна лінійна архітектура уваги, яка кидає виклик уявленню, що всі шари повинні використовувати повну увагу. За рахунок оптимізації управління рекурсивним збереженням, у контексті довжиною до 128K або навіть 1M, швидкість декодування збільшилася у 5-6 разів, при цьому модель зберігає високі показники на різних довжинах сцен.

Крім того, щодо залишкових з’єднань, що мають десятирічну історію, Kimi запровадила схему Attention Residuals, яка замінює традиційне додавання на використання Softmax-уваги до виходів попередніх шарів. Це вирішує проблему безмежного зростання прихованих станів із глибиною, що розмиває внесок глибших рівнів, дозволяючи кожному шару вибірково агрегувати інформацію залежно від вхідних даних. Ця робота викликала роздуми колишнього співзасновника OpenAI Карпати, який зазначив, що наше розуміння Transformer’а у статті “Attention is All You Need” ще недостатнє. Засновник xAI Ілон Маск також оцінив цю роботу як вражаючу.

У межах міжмодальної дослідницької роботи Ян Чжілін поділився важливим спостереженням: у первинному спільному попередньому навчанні зображень і тексту візуальне підкріплювальне навчання (Vision RL) суттєво покращує текстову продуктивність. Експерименти з абляцією показали, що після тренування з Vision RL модель демонструє підвищення приблизно на 2.1% у таких чисто текстових бенчмарках, як MMLU-Pro і GPQA-Diamond. Це означає, що посилення просторового мислення та візуальної логіки може ефективно трансформуватися у більш глибокі універсальні когнітивні здібності.

Наприкінці виступу Ян Чжілін глибоко розглянув питання розширення кластера агентів. Він вважає, що майбутня форма інтелекту буде еволюціонувати від окремого агента до динамічно генерованих кластерів. Механізм Orchestrator, запроваджений у Kimi K2.5, здатен розбивати складні довгі завдання на десятки підагентів, які працюють паралельно. Щоб запобігти залежності від окремих точок і “послідовному колапсу”, команда розробила нову паралельну функцію винагороди RL, яка стимулює модель справді навчитися розбиттю завдань і паралельному виконанню.

У підсумку, Ян Чжілін обговорив зміну парадигми досліджень у штучному інтелекті. Він зазначив, що десять років тому дослідження більше зосереджувалися на публікації нових ідей, але через обмежені обчислювальні ресурси важко було підтвердити їх за допомогою масштабних експериментів. Тепер, завдяки достатнім ресурсам і “шкаліючій драбині (Scaling Ladder)”, дослідники можуть проводити ретельні масштабні експерименти і робити більш впевнені та надійні висновки. Саме тому Kimi здатна знаходити нові прориви навіть у технологіях, що здавалися “старими”. Kimi продовжить відкритий шлях, відкриваючи MuonClip, Kimi Linear і Attention Residuals для спільноти, створюючи потужніші моделі і сприяючи поширенню штучного інтелекту для всіх. (Вень Мень)

KDA-1,12%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити