字节跳动开源Cola DLM:用扩散模型重新定义文本生成

robot
摘要生成中
ME News 消息,5 月 16 日(UTC+8),据 动察 Beating 监测,字节跳动 Seed 团队开源 Cola DLM。这是一套连续潜在扩散语言模型,试图绕开大语言模型按 token 从左到右逐个生成的固定路径,把文本生成改成先组织高层语义、再落回具体文字。 Cola DLM 的核心是 Text VAE + block-causal DiT。Text VAE 先把离散文本映射到连续潜在空间,block-causal DiT 再通过 Flow Matching 学习潜在先验,最后由条件解码器把潜在变量还原成文本。扩散过程处理的是潜在语义表示,不是直接在 token 层面反复去噪。 本次开源版本属于 2B 级模型,具体为约 23 亿总参数,其中核心 DiT 为 18 亿参数,另含 5 亿参数 VAE。在 LAMBADA、MMLU、OBQA、HellaSwag、RACE、SIQA、SQuAD、Story Cloze 等 8 项评测中,论文称其在统一生成式评测协议下已具备与同规模 AR / LLaDA 基线竞争的 scaling 表现,并在最终平均分上达到最好结果。 不过目前仍是研究型 checkpoint,不是直接可用的对话模型。官方说明该模型没有经过指令微调和 RLHF,主要用途是研究连续潜在扩散如何用于文本生成。论文还展示了向文本图像统一建模扩展的初步实验,但本次开源仓库只包含文本管线。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 4
  • 1
  • 分享
评论
请输入评论内容
请输入评论内容
APR Whisperer
· 1小时前
没指令微调直接放出来,这很字节,先占个坑再说
回复0
Breadth Hunter
· 15小时前
8项评测打平AR,但没RLHF,实际用起来可能还是差点意思
回复0
藤蔓几何
· 15小时前
block-causal 这个设计是为了长文本还是效率?论文里细说说
回复0
GateUser-a4680931
· 15小时前
潜在语义层做扩散,生成质量能比AR稳吗,等实测
回复0