ByteDance наконец выпустила модель диффузионного языка, 23B параметров для генерации текста в скрытом пространстве, идея довольно смелая.

Посмотреть Оригинал
MeNews
ByteDance открывает исходный код Cola DLM: переопределение генерации текста с помощью модели распространения
ByteDance Seed开源Cola DLM,是一套在潜在语义层进行文本扩散的模型。Text VAE将文本映射到连续潜在空间,block-causal DiT通过Flow Matching学习潜在先验,最终由条件解码器把潜在变量还原成文本。总参数约23亿(DiT 18亿、VAE 5亿)。在8项评测中与同规模AR/LLaDA基线竞争并居前,但仍是研究型checkpoint,未经过指令微调或RLHF,当前仓库仅含文本管线,未来或扩展到文本-图像。
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено