ME AI 消息，据动察 Beating 监测，Prime Intellect 发布分布式强化学习训练框架 prime-rl 0.6.0 版本，攻克了万亿参数混合专家模型 MoE 在超长上下文智能体任务下的强化学习 RL 训练门槛。大模型能读完 256k 的超长文本并不罕见，但在强化学习训练中，为了让模型通过自主试错进行推理演练，显卡必须全程保存 131k 长度下庞大的中间激活值，显存开销呈成百上千倍暴涨。此前这需要数千张显卡构成的庞大集群，而 prime-rl 0.6.0 仅用 28 台 H200 服务器就跑通了 GLM-5 的 131k 上下文强化学习训练，单步耗时控制在 5 分钟内。为解决复杂代码生成等试错任务中，极少数长尾耗时任务阻塞全局步调导致显卡资源长期闲置的问题，框架打破了传统的同步等待机制，采用完全解耦的异步 RL 架构。后台训练器在计算出新权重后，无须等待正在进行的试错任务结束，直接在模型生成文本期间实时下发更新。已分发的任务继续使用旧策略以保证速度，新任务则注入 KV-cache 盐强行重建缓存。针对异步更新中训练与推理步调不一致容易导致模型逻辑混乱的问题，框架引入路由重放 R3 技术，直接在底层处理专家分发数据，规避了数据转换带来的系统延迟，将两端的不匹配度降低至十分之一，极大稳定了异步训练。在底层资源压榨上，框架通过精细设计彻底解决了显卡显存被长文本撑爆的痛点。推理端采用读与写计算分离的架构，防止大模型因阅读大量前情提示而卡死后续的文本生成；同时联合多张显卡共享专家知识，并利用 Mooncake 技术把多台服务器的闲置内存和硬盘拼成一个共享缓存池。在超长文本的并行计算上，针对 GLM-5 独特的 DSA 稀疏注意力机制，框架定制了专属的并行方案，在确保模型能纵览全局的同时，将每层显卡间的数据通信开销缩减至仅有一次。训练端则结合 DeepGEMM 实现 DeepSeek V3 提出的块缩放 FP8 训练，使训练与推理端使用相同精度与计算内核，从根本上消除了精度偏差导致的训练崩溃。（来源：BlockBeats）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
0成本拿2股SK海力士
14.64万热度
#
Gate股票7x24小时交易
876.48万热度
#
预测世界杯英格兰VS加纳
91万热度
#
TradFiCFD黄金大师赛
209.51万热度
#
SpaceX暴跌16%市值蒸发4000亿
199.91万热度

击穿万亿参数大模型强化学习门槛：开源prime-rl让28台服务器训动131k上下文

热门话题

0成本拿2股SK海力士

Gate股票7x24小时交易

预测世界杯英格兰VS加纳

TradFiCFD黄金大师赛

SpaceX暴跌16%市值蒸发4000亿

置顶