ByteDance открывает исходный код Cola DLM: переопределение генерации текста с помощью модели распространения

robot
Генерация тезисов в процессе
МЕ Новости, 16 мая (UTC+8), по данным мониторинга 动察 Beating, команда ByteDance Seed выпустила открытый исходный код Cola DLM.
Это набор последовательных потенциальных диффузионных языковых моделей, пытающихся обойти фиксированный путь генерации текста по токенам слева направо, характерный для больших языковых моделей, и изменить процесс генерации текста так, чтобы сначала организовать высокоуровневую семантику, а затем перейти к конкретным словам.
Ядром Cola DLM является Text VAE + блок-каузальный DiT.
Text VAE сначала отображает дискретный текст в непрерывное потенциальное пространство, а блок-каузальный DiT обучается предиктивному моделированию потенциалов с помощью Flow Matching, после чего условный декодер восстанавливает текст из потенциальных переменных.
Процесс диффузии обрабатывает представление семантики в потенциале, а не повторное устранение шума непосредственно на уровне токенов.
Эта версия с открытым исходным кодом относится к модели уровня 2B, содержащей примерно 2,3 миллиарда параметров, из которых ядро DiT включает 1,8 миллиарда параметров, а дополнительно 500 миллионов — VAE.
В восьми тестах, таких как LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD, Story Cloze, авторы заявляют, что при едином протоколе оценки генеративных моделей она демонстрирует масштабируемость, сопоставимую с базовыми моделями AR / LLaDA того же масштаба, и достигает лучших средних результатов.
Однако в настоящее время это все еще исследовательский контрольный пункт, а не готовая к использованию модель для диалогов.
Официальные источники отмечают, что эта модель не прошла инструктивную донастройку и RLHF, ее основное назначение — исследование применения последовательных потенциалов диффузии для генерации текста.
Также в статье представлены предварительные эксперименты по расширению модели для унифицированного моделирования текста и изображений, однако в текущем репозитории содержится только текстовая часть.
(Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 3
  • 1
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
BreadthHunter
· 4ч назад
8 критериев оценки сравнялись с AR, но без RLHF, в реальном использовании всё равно может немного не дотягивать
Посмотреть ОригиналОтветить0
VineGeometry
· 4ч назад
block-causal этот дизайн предназначен для длинных текстов или для повышения эффективности? Подробно расскажите в статье.
Посмотреть ОригиналОтветить0
GateUser-a4680931
· 4ч назад
Расширение на уровне скрытого семантического слоя, качество генерации может быть стабильнее, чем у AR, ожидаются реальные тесты.
Посмотреть ОригиналОтветить0
  • Закреплено