Cola DLM把文本塞进连续潜空间再扩散,Flow Matching+DiT的架构选择很字节——工程味浓,但没SFT没RLHF的raw checkpoint,现在也就是个研究玩具,等多模态管线出来再看能不能打。

ME News
字节跳动开源Cola DLM:用扩散模型重新定义文本生成
字节跳动 Seed 开源 Cola DLM,是一套在潜在语义层进行文本扩散的模型。Text VAE 将文本映射到连续潜在空间,block-causal DiT 通过 Flow Matching 学习潜在先验,最终由条件解码器把潜在变量还原成文本。总参数约23亿(DiT 18亿、VAE 5亿)。在8项评测中与同规模 AR/LLaDA 基线竞争并居前,但仍是研究型 checkpoint,未经过指令微调或 RLHF,当前仓库仅含文本管线,未来或扩展到文本-图像。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论