Yang Zhilin GTC 2026 Présentation : dévoilement de la feuille de route technologique de Kimi, discussion sur les « goulots d'étranglement du scaling »

MaticHoleFiller · 2026-03-20T11:45:24+00:00

Lors de la conférence GTC 2026 d'Nvidia, Yang Zhilin, fondateur de Kimi, a souligné que la percée de l'intelligence des grands modèles nécessite une restructuration des technologies sous-jacentes, comme l'optimisation et les mécanismes d'attention. L'évolution de Kimi K2.5 se concentre sur trois dimensions : l'efficacité des tokens, le contexte long et les clusters d'agents intelligents. Elle exploite de nouveaux optimiseurs et architectures d'attention pour améliorer les performances, réaliser un niveau d'intelligence plus élevé et promouvoir l'innovation open source.

MaticHoleFiller

2026-03-20 11:45:24

Création du résumé en cours

新浪科技讯 3月18日上午消息，2026英伟达GTC大会上，月之暗面Kimi创始人杨植麟分享指出，要推动大模型智能上限的持续突破，必须对优化器、注意力机制及残差连接等底层基石进行重构。

继今年 1 月底正式发布Kimi K2.5以后，杨植麟在本次演讲中首次系统性地披露了该模型背后的技术路线图。他将Kimi的进化逻辑归纳为三个维度的共振：Token效率、长上下文以及智能体集群（Agent Swarms）。在杨植麟看来，当前的Scaling已经不再是单纯的资源堆砌，而是要在计算效率、长程记忆和自动化协作上同时寻找规模效应。如果能将这三个维度的技术增益相乘，模型将表现出远超现状的智能水平。

技术重构是本次演讲的核心。杨植麟提出，行业目前普遍使用的很多技术标准，本质上是八九年前的产物，正逐渐成为 Scaling 的瓶颈。

自 2014 年以来，Adam优化器一直被视为行业标配，但在超大规模训练中，寻找更具 Token 效率的替代方案已成趋势。Kimi团队在实验中验证了Muon优化器在提升Token效率方面的显著潜力，但在将其扩展至万亿参数规模的K2模型训练时，发现了Logits爆炸导致模型发散的稳定性难题。为此，团队研发并开源了MuonClip优化器，通过Newton-Schulz迭代并结合QK-Clip机制，在彻底解决Logits爆炸问题的同时，实现了2倍于传统AdamW的计算效率。

针对 2017 年诞生的全注意力机制（Full Attention），杨植麟展示了基于 KDA 架构的Kimi Linear。这是一种混合线性注意力架构，它挑战了“所有层必须使用全注意力”的惯例，通过优化递归存储管理，在128K甚至1M的超长上下文中，将解码速度提升了5到6倍，且在不同长度的场景下均保持了优异性能。

此外，针对已有十年历史的残差连接，Kimi 引入了Attention Residuals方案，将传统的固定加法累加替换为对前序层输出的 Softmax 注意力，解决了隐藏状态随深度增加而无限制增长、从而稀释深层贡献的顽疾，使每一层都能根据输入内容有选择地聚合信息。这项工作引发了前OpenAI联合创始人Karpathy的思考，直言我们对Attention is All You Need这篇Transformer开山之作的理解还是不够。xAI创始人马斯克也评论称Kimi这项工作令人印象深刻。

在跨模态研究方面，杨植麟分享了一个重要的观察：原生的视觉-文本联合预训练中，视觉强化学习（Vision RL）能够显著反哺文本性能。消融实验数据显示，经过视觉RL训练后，模型在MMLU-Pro和GPQA-Diamond等纯文本基准测试上的表现提升了约2.1%。这意味着空间推理与视觉逻辑的增强，可以有效转化为更深层的通用认知能力。

演讲的最后，杨植麟深入探讨了智能体集群的扩展。他认为未来的智能形态将从单智能体向动态生成的集群进化。Kimi K2.5 引入的Orchestrator机制，能够将复杂的长任务拆解给数十个子Agent并行处理。为了防止协作过程中出现单点依赖导致的“串行塌缩”，团队设计了全新的并行RL奖励函数，激励模型真正学会任务分解与并行执行。

杨植麟在总结中谈到了 AI 研究范式的转变。他提到，十年前的研究往往更看重新想法的发表，但受限于算力资源，很难通过不同规模的实验来验证这些想法。而现在由于拥有了足够的资源和“缩放阶梯（Scaling Ladder）”，研究者可以进行严谨的规模化实验，从而得出更自信、更可靠的结论。这也是为什么Kimi能够从那些看似“古老”的技术中挖掘出新突破的原因。Kimi将继续坚持开源路径，将MuonClip、Kimi Linear和Attention Residuals等底层创新贡献给开源社区，打造更强大的模型，推动人工智能技术的普惠。（文猛）

KDA-1,12%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.