ME AI 消息，據動察 Beating 監測，Prime Intellect 發布分布式強化學習訓練框架 prime-rl 0.6.0 版本，攻克了萬億參數混合專家模型 MoE 在超長上下文智能體任務下的強化學習 RL 訓練門檻。大模型能讀完 256k 的超長文本並不罕見，但在強化學習訓練中，為了讓模型通過自主試錯進行推理演練，顯卡必須全程保存 131k 長度下龐大的中間激活值，顯存開銷呈成百上千倍暴漲。此前這需要數千張顯卡構成的龐大集群，而 prime-rl 0.6.0 僅用 28 台 H200 伺服器就跑通了 GLM-5 的 131k 上下文強化學習訓練，單步耗時控制在 5 分鐘內。為解決複雜程式碼生成等試錯任務中，極少數長尾耗時任務阻塞全局步調導致顯卡資源長期閒置的問題，框架打破了傳統的同步等待機制，採用完全解耦的異步 RL 架構。後台訓練器在計算出新權重後，無須等待正在進行的試錯任務結束，直接在模型生成文本期間實時下發更新。已分發的任務繼續使用舊策略以保證速度，新任務則注入 KV-cache 鹽強行重建快取。針對異步更新中訓練與推理步調不一致容易導致模型邏輯混亂的問題，框架引入路由重放 R3 技術，直接在底層處理專家分發資料，規避了資料轉換帶來的系統延遲，將兩端的不匹配度降低至十分之一，極大穩定了異步訓練。在底層資源壓榨上，框架通過精細設計徹底解決了顯卡顯存被長文本撐爆的痛點。推理端採用讀與寫計算分離的架構，防止大模型因閱讀大量前情提示而卡死後續的文本生成；同時聯合多張顯卡共享專家知識，並利用 Mooncake 技術把多台伺服器的閒置內存和硬碟拼成一個共享快取池。在超長文本的並行計算上，針對 GLM-5 獨特的 DSA 稀疏注意力機制，框架定制了專屬的並行方案，在確保模型能縱覽全局的同時，將每層顯卡間的資料通訊開銷縮減至僅有一次。訓練端則結合 DeepGEMM 實現 DeepSeek V3 提出的塊縮放 FP8 訓練，使訓練與推理端使用相同精度與計算內核，從根本上消除了精度偏差導致的訓練崩潰。（來源：BlockBeats）

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
0成本拿2股SK海力士
14.58萬熱度
#
Gate股票7x24小時交易
876.71萬熱度
#
預測世界盃英格蘭VS加納
90.05萬熱度
#
TradFiCFD黃金大師賽
207.98萬熱度
#
SpaceX暴跌16%市值蒸發4000億
200.2萬熱度

突破萬億參數大模型強化學習門檻：開源prime-rl讓28台伺服器訓練131k上下文

熱門話題

0成本拿2股SK海力士

Gate股票7x24小時交易

預測世界盃英格蘭VS加納

TradFiCFD黃金大師賽

SpaceX暴跌16%市值蒸發4000億

已置頂