广场
最新
热门
资讯
我的主页
发布
NVIDIA的双塔架构通过并行30B模型提升大模型效率
空投黑洞
2026-07-04 11:41:55
关注
据Beating监测,NVIDIA已开源离散文本扩散架构Nemotron-Labs-TwoTower,旨在解决大模型一次只能生成一个词的速度瓶颈。以往的文本扩散模型为了追求并行输出,强行让单个网络平衡单向上下文理解与双向并行纠错,导致模型认知能力显著下降。TwoTower架构采用解耦设计:一方面,完全冻结预训练的自回归大模型作为“只读上下文塔”,保留完整的推理与常识能力;另一方面,单独训练一个“去噪写作塔”,通过跨层级的交叉注意力读取上下文信息。写作塔采用“置信度去掩码”机制,在预测一个块时优先写出高置信度的词,逐步填充剩余空缺,实现从易到难的并行写作。该设计在30B级别混合架构(Mamba-Transformer MoE)模型上,仅使用基线模型1/12的预训练数据(2.1T tokens)进行适配,保留98.7%质量的同时,实际生成速度提升2.42倍,且未增加额外内存缓存开销。但由于需要在内存中同时保留两个塔,模型静态内存占用有所增加,且在极端复杂的代码与数学推理中仍存在轻微精度损失。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
gStocks代币化股票上线
478.63万 热度
#
非农爆冷打压加息预期
105.29万 热度
#
预测世界杯巴西VS挪威
19.71万 热度
#
ETH突破1700
1.52亿 热度
#
Meta卖算力引发存储股大跌
140.57万 热度
置顶
网站地图
NVIDIA的双塔架构通过并行30B模型提升大模型效率