Ян Чжилинь выступление на GTC 2026: раскрытие технологического пути Kimi, обсуждение «узких мест масштабирования»

robot
Генерация тезисов в процессе

Синьхуа Технологии, 18 марта утром: на конференции NVIDIA GTC 2026 основатель проекта Moon’s Dark Side Kimi, Ян Чжилин, поделился мнением, что для постоянного прорыва в возможностях больших моделей необходимо перестроить базовые компоненты, такие как оптимизаторы, механизмы внимания и остаточные связи.

После официального выпуска Kimi K2.5 в конце января этого года, Ян Чжилин впервые систематически раскрыл техническую дорожную карту этой модели. Он свел эволюцию Kimi к трем ключевым аспектам: эффективности токенов, длинному контексту и кластеру агентов (Agent Swarms). По мнению Яна, текущий масштабинг уже не сводится к простому увеличению ресурсов, а требует одновременного улучшения вычислительной эффективности, долговременной памяти и автоматизированного сотрудничества. Если умножить технологические преимущества по этим трём направлениям, модель сможет демонстрировать значительно более высокий уровень интеллекта.

Техническая перестройка — центральная тема выступления. Ян отметил, что многие используемые в индустрии стандарты на самом деле являются продуктами восьми-девяти летней давности и постепенно становятся узким местом масштабирования.

С 2014 года оптимизатор Adam считается стандартом отрасли, однако в условиях сверхмасштабных тренировок растет тенденция искать более эффективные альтернативы по токенам. Команда Kimi проверила в экспериментах потенциал Muon-оптимизатора для повышения эффективности токенов, но при масштабировании до триллионных параметров модели K2 столкнулась с проблемой стабильности из-за взрыва логитов, вызывающего расходимость модели. В ответ команда разработала и открыла MuonClip — оптимизатор, основанный на итерациях Newton-Schulz и механизме QK-Clip, который полностью решает проблему взрыва логитов и в два раза превосходит по эффективности традиционный AdamW.

Что касается механизма полного внимания (Full Attention), появившегося в 2017 году, Ян представил Kimi Linear, основанный на архитектуре KDA. Это гибридная линейная архитектура внимания, которая бросает вызов правилу «все слои должны использовать полное внимание». За счет оптимизации управления рекурсивным хранением, в сценариях с очень длинным контекстом (128K и даже 1M) скорость декодирования увеличилась в 5–6 раз, при этом сохранив отличные показатели в различных сценариях длины.

Кроме того, для остаточных связей, существующих уже десять лет, Kimi внедрила схему Attention Residuals, заменив традиционное сложение на использование Softmax внимания к выходам предыдущих слоев. Это решает проблему неограниченного роста скрытых состояний с увеличением глубины, что позволяет каждому слою избирательно агрегировать информацию в зависимости от входных данных. Эта работа вызвала размышления со стороны Карпати, соучредителя OpenAI, который отметил, что наше понимание статьи «Attention is All You Need» еще недостаточно. Илон Маск, основатель xAI, также отметил, что работа Kimi впечатляет.

В области межмодальных исследований Ян поделился важным наблюдением: в исходной совместной предобучении визуальных и текстовых данных усиленное обучение с использованием визуальной RL значительно улучшает качество текстовых задач. Эксперименты показали, что после обучения с помощью визуальной RL модель показывает рост примерно на 2.1% в тестах MMLU-Pro и GPQA-Diamond, что свидетельствует о том, что усиление пространственного рассуждения и визуальной логики может значительно расширить универсальные когнитивные способности.

В заключение Ян подробно остановился на расширении кластеров агентов. Он считает, что будущее интеллекта будет развиваться от одиночных агентов к динамически порождаемым кластерам. Механизм Orchestrator, введенный в Kimi K2.5, позволяет разбивать сложные длинные задачи на десятки подагентов, которые работают параллельно. Чтобы избежать зависимости от одного узла, которая может привести к «последовательному краху», команда разработала новый параллельный RL-функционал награждения, стимулирующий модель к обучению разбиению задач и параллельному выполнению.

В итоговой части Ян отметил, что парадигма исследований в области ИИ меняется. Он напомнил, что десять лет назад исследования больше сосредотачивались на публикации новых идей, но из-за ограниченных ресурсов было трудно проводить масштабные эксперименты для их проверки. Сейчас, благодаря достаточным ресурсам и «ступеням масштабирования», исследователи могут проводить строгие масштабные эксперименты и получать более уверенные и надежные выводы. Именно поэтому Kimi удается находить новые прорывы даже в тех технологиях, которые казались устаревшими. Kimi продолжит открытый исходный код, делясь инновациями, такими как MuonClip, Kimi Linear и Attention Residuals, чтобы создавать более мощные модели и продвигать доступность технологий искусственного интеллекта. (Мэн Гэн)

KDA-4,05%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить