Gate 广场创作者新春激励正式开启,发帖解锁 $60,000 豪华奖池
如何参与:
报名活动表单:https://www.gate.com/questionnaire/7315
使用广场任意发帖小工具,搭配文字发布内容即可
丰厚奖励一览:
发帖即可可瓜分 $25,000 奖池
10 位幸运用户:获得 1 GT + Gate 鸭舌帽
Top 发帖奖励:发帖与互动越多,排名越高,赢取 Gate 新年周边、Gate 双肩包等好礼
新手专属福利:首帖即得 $50 奖励,继续发帖还能瓜分 $10,000 新手奖池
活动时间:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
详情:https://www.gate.com/announcements/article/49112
DeepSeek的新型流形架构应对深度网络训练挑战
DeepSeek推出了一种针对先进神经网络设计中长期存在问题的创新解决方案。研究团队引入了Manifold-Constrained Hyperconnections (mHC),这是一种经过优化的架构,旨在解决传统超连接网络 (HC) 所面临的关键稳定性和可扩展性问题。
核心问题与解决方案
传统的超连接网络存在一个根本缺陷:其恒等映射特性在训练过程中会失效,导致不稳定性和扩展性差。DeepSeek的突破在于将残差连接空间映射到受约束的流形结构上。这一数学方法在保持基本恒等映射特性的同时,通过优化基础设施实现了计算效率。
这为何重要
其影响深远。通过将连接限制在特定的流形几何结构中,该架构实现了多方面的提升:增强训练稳定性、更好地扩展到更大规模的模型,以及在高计算负载下表现更为稳健。这些不是微小的改进,而是在基础模型构建和训练方式上的重大飞跃。
对AI发展的更广泛影响
DeepSeek将mHC视为超连接网络的升级版,而非替代品。论文指出,这项工作揭示了拓扑架构设计的更深层次原理——这可能会在未来几年内重塑研究人员对基础模型开发的思路。
该研究由谢震达、韦一轩和曹焕奇领导,梁文峰也为此贡献力量。他们的工作预示着网络架构设计将越来越多地受到几何和拓扑原理的指导。