杨植麟 GTC 2026 演讲：披露Kimi技术路线，谈“Scaling瓶颈”

2026-03-20 11:45:24

摘要生成中

新浪科技讯 3月18日上午消息，2026英伟达GTC大会上，月之暗面Kimi创始人杨植麟分享指出，要推动大模型智能上限的持续突破，必须对优化器、注意力机制及残差连接等底层基石进行重构。

继今年 1 月底正式发布Kimi K2.5以后，杨植麟在本次演讲中首次系统性地披露了该模型背后的技术路线图。他将Kimi的进化逻辑归纳为三个维度的共振：Token效率、长上下文以及智能体集群（Agent Swarms）。在杨植麟看来，当前的Scaling已经不再是单纯的资源堆砌，而是要在计算效率、长程记忆和自动化协作上同时寻找规模效应。如果能将这三个维度的技术增益相乘，模型将表现出远超现状的智能水平。

技术重构是本次演讲的核心。杨植麟提出，行业目前普遍使用的很多技术标准，本质上是八九年前的产物，正逐渐成为 Scaling 的瓶颈。

自 2014 年以来，Adam优化器一直被视为行业标配，但在超大规模训练中，寻找更具 Token 效率的替代方案已成趋势。Kimi团队在实验中验证了Muon优化器在提升Token效率方面的显著潜力，但在将其扩展至万亿参数规模的K2模型训练时，发现了Logits爆炸导致模型发散的稳定性难题。为此，团队研发并开源了MuonClip优化器，通过Newton-Schulz迭代并结合QK-Clip机制，在彻底解决Logits爆炸问题的同时，实现了2倍于传统AdamW的计算效率。

针对 2017 年诞生的全注意力机制（Full Attention），杨植麟展示了基于 KDA 架构的Kimi Linear。这是一种混合线性注意力架构，它挑战了“所有层必须使用全注意力”的惯例，通过优化递归存储管理，在128K甚至1M的超长上下文中，将解码速度提升了5到6倍，且在不同长度的场景下均保持了优异性能。

此外，针对已有十年历史的残差连接，Kimi 引入了Attention Residuals方案，将传统的固定加法累加替换为对前序层输出的 Softmax 注意力，解决了隐藏状态随深度增加而无限制增长、从而稀释深层贡献的顽疾，使每一层都能根据输入内容有选择地聚合信息。这项工作引发了前OpenAI联合创始人Karpathy的思考，直言我们对Attention is All You Need这篇Transformer开山之作的理解还是不够。xAI创始人马斯克也评论称Kimi这项工作令人印象深刻。

在跨模态研究方面，杨植麟分享了一个重要的观察：原生的视觉-文本联合预训练中，视觉强化学习（Vision RL）能够显著反哺文本性能。消融实验数据显示，经过视觉RL训练后，模型在MMLU-Pro和GPQA-Diamond等纯文本基准测试上的表现提升了约2.1%。这意味着空间推理与视觉逻辑的增强，可以有效转化为更深层的通用认知能力。

演讲的最后，杨植麟深入探讨了智能体集群的扩展。他认为未来的智能形态将从单智能体向动态生成的集群进化。Kimi K2.5 引入的Orchestrator机制，能够将复杂的长任务拆解给数十个子Agent并行处理。为了防止协作过程中出现单点依赖导致的“串行塌缩”，团队设计了全新的并行RL奖励函数，激励模型真正学会任务分解与并行执行。

杨植麟在总结中谈到了 AI 研究范式的转变。他提到，十年前的研究往往更看重新想法的发表，但受限于算力资源，很难通过不同规模的实验来验证这些想法。而现在由于拥有了足够的资源和“缩放阶梯（Scaling Ladder）”，研究者可以进行严谨的规模化实验，从而得出更自信、更可靠的结论。这也是为什么Kimi能够从那些看似“古老”的技术中挖掘出新突破的原因。Kimi将继续坚持开源路径，将MuonClip、Kimi Linear和Attention Residuals等底层创新贡献给开源社区，打造更强大的模型，推动人工智能技术的普惠。（文猛）

海量资讯、精准解读，尽在新浪财经APP

责任编辑：杨赐

KDA-1.47%

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate13周年全球庆典
1671.54万热度
#
TradFi首创多倍杠杆
55.48万热度
#
加密行情震荡
111.41万热度
#
创作者冲榜
2.77万热度
#
OpenAI拟推出桌面超级应用
66.81万热度

热门 Gate Fun
查看更多

1
DTRMP
Donut Trumpt
市值:$2317.24持有人数:1
0.00%
2
TOPPEAK
TOPPEAK
市值:$2331.03持有人数:1
0.00%
3
舔狗
舔狗
市值:$2337.93持有人数:1
0.00%
4
纳斯达克
纳斯达克
市值:$2359.66持有人数:2
0.00%
5
γ
星辰
市值:$2331.03持有人数:1
0.00%

杨植麟 GTC 2026 演讲：披露Kimi技术路线，谈“Scaling瓶颈”

热门话题

Gate13周年全球庆典

TradFi首创多倍杠杆

加密行情震荡

创作者冲榜

OpenAI拟推出桌面超级应用

热门 Gate Fun

DTRMP

Donut Trumpt

TOPPEAK

TOPPEAK

舔狗

舔狗

纳斯达克

纳斯达克

γ

星辰

置顶