Cola DLM вставляє текст у безперервний потенційний простір і потім розповсюджує його, архітектура Flow Matching+DiT дуже Byte — інженерний підхід, але без SFT і RLHF у сирій контрольній точці, зараз це лише дослідницька іграшка, чекатиме появи мультимодального конвеєра, щоб подивитися, чи зможе він конкурувати.

Переглянути оригінал
MeNews
ByteDance відкриває Cola DLM: переосмислення генерації тексту за допомогою моделей розсіювання
ByteDance Seed відкритий код Cola DLM — це набір моделей для розповсюдження тексту на потенційно семантичному рівні. Text VAE перетворює текст у безперервний потенційний простір, блок-казуальний DiT навчається потенційним передумовам за допомогою Flow Matching, а кінцева умовна декодер відновлює потенційні змінні у текст. Загальна кількість параметрів приблизно 2,3 мільярди (DiT — 1,8 мільярда, VAE — 500 мільйонів). У 8 оцінках він конкурує з базовими моделями AR/LLaDA такого ж масштабу і займає провідні позиції, але все ще є дослідницькою контрольною точкою, яка не пройшла інструкційне тонке налаштування або RLHF, наразі репозиторій містить лише текстовий канал, у майбутньому можливо розширення до текст-образу.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено