据东查贝廷的监测, 小米大型模型团队负责人罗福利指出,大模型的竞争已从以预训练为主导的聊天时代转向以后训练(Post-train)为主导的代理时代。目前的核心竞争点是“如何在代理上有效扩展强化学习(RL)”。这一范式转变直接导致了计算资源分配的重组。罗福利透露,在聊天时代,研究、预训练和后训练的计算比例大约为3:5:1;而在今天的代理时代,合理的计算分配比例已变为3:1:1,表明预训练和后训练的计算投入现在几乎相等,顶级模型团队在这两个领域的投入达到了1:1的比例。此外,系统架构的需求也发生了重大变化。以前,RL基础设施主要围绕“模型推理引擎”,处理纯文本计算;现在,基础设施必须围绕“代理”构建,支持异构集群调度,并容忍在复杂工作流程中由于各种不可控因素导致的代理中断的不确定性。
羅福利:大型モデル进入后训练时代,顶级团队实现预训练与后训练的1:1计算比率
据东查贝廷的监测, 小米大型模型团队负责人罗福利指出,大模型的竞争已从以预训练为主导的聊天时代转向以后训练(Post-train)为主导的代理时代。目前的核心竞争点是“如何在代理上有效扩展强化学习(RL)”。这一范式转变直接导致了计算资源分配的重组。罗福利透露,在聊天时代,研究、预训练和后训练的计算比例大约为3:5:1;而在今天的代理时代,合理的计算分配比例已变为3:1:1,表明预训练和后训练的计算投入现在几乎相等,顶级模型团队在这两个领域的投入达到了1:1的比例。此外,系统架构的需求也发生了重大变化。以前,RL基础设施主要围绕“模型推理引擎”,处理纯文本计算;现在,基础设施必须围绕“代理”构建,支持异构集群调度,并容忍在复杂工作流程中由于各种不可控因素导致的代理中断的不确定性。