ByteDance Seed开源Cola DLM，是一套在潜在语义层进行文本扩散的模型。Text VAE将文本映射到连续潜在空间，block-causal DiT通过Flow Matching学习潜在先验，最终由条件解码器把潜在变量还原成文本。总参数约23亿（DiT 18亿、VAE 5亿）。在8项评测中与同规模AR/LLaDA基线竞争并居前，但仍是研究型checkpoint，未经过指令微调或RLHF，当前仓库仅含文本管线，未来或扩展到文本-图像。

MeNews

2026-05-27 18:10:52

Генерация тезисов в процессе

МЕ Новости, 16 мая (UTC+8), по данным мониторинга 动察 Beating, команда ByteDance Seed выпустила открытый исходный код Cola DLM.
Это набор последовательных потенциальных диффузионных языковых моделей, пытающихся обойти фиксированный путь генерации текста по токенам слева направо, характерный для больших языковых моделей, и изменить процесс генерации текста так, чтобы сначала организовать высокоуровневую семантику, а затем перейти к конкретным словам.
Ядром Cola DLM является Text VAE + блок-каузальный DiT.
Text VAE сначала отображает дискретный текст в непрерывное потенциальное пространство, а блок-каузальный DiT обучается предиктивному моделированию потенциалов с помощью Flow Matching, после чего условный декодер восстанавливает текст из потенциальных переменных.
Процесс диффузии обрабатывает представление семантики в потенциале, а не повторное устранение шума непосредственно на уровне токенов.
Эта версия с открытым исходным кодом относится к модели уровня 2B, содержащей примерно 2,3 миллиарда параметров, из которых ядро DiT включает 1,8 миллиарда параметров, а дополнительно 500 миллионов — VAE.
В восьми тестах, таких как LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD, Story Cloze, авторы заявляют, что при едином протоколе оценки генеративных моделей она демонстрирует масштабируемость, сопоставимую с базовыми моделями AR / LLaDA того же масштаба, и достигает лучших средних результатов.
Однако в настоящее время это все еще исследовательский контрольный пункт, а не готовая к использованию модель для диалогов.
Официальные источники отмечают, что эта модель не прошла инструктивную донастройку и RLHF, ее основное назначение — исследование применения последовательных потенциалов диффузии для генерации текста.
Также в статье представлены предварительные эксперименты по расширению модели для унифицированного моделирования текста и изображений, однако в текущем репозитории содержится только текстовая часть.
(Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

8 Лайков

Награда
8
3
1
Поделиться

комментарий

Добавить комментарий

BreadthHunter

· 4ч назад

8 критериев оценки сравнялись с AR, но без RLHF, в реальном использовании всё равно может немного не дотягивать

Посмотреть ОригиналОтветить0

VineGeometry

· 4ч назад

block-causal этот дизайн предназначен для длинных текстов или для повышения эффективности? Подробно расскажите в статье.

Посмотреть ОригиналОтветить0

GateUser-a4680931

· 4ч назад

Расширение на уровне скрытого семантического слоя, качество генерации может быть стабильнее, чем у AR, ожидаются реальные тесты.

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
StockTradingChallengeUpTo17000U
16.02M Популярность
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
832.38K Популярность
#
IsraelStrikesIranBTCPlunges
49.81K Популярность
#
GatePredictionMarketAddsSmartMoneyTracking
13.24M Популярность
#
MicronMarketCapBreaks1Trillion
45.1K Популярность

Закреплено

Карта сайта

ByteDance открывает исходный код Cola DLM: переопределение генерации текста с помощью модели распространения

Популярные темы

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Закреплено