ByteDance нарешті випустила модель розповсюдження мовних моделей, 23B параметрів генерує текст у прихованому просторі, підхід досить сміливий.

Переглянути оригінал
MeNews
ByteDance відкриває Cola DLM: переосмислення генерації тексту за допомогою моделей розсіювання
ByteDance Seed відкритий код Cola DLM — це набір моделей для розповсюдження тексту на потенційно семантичному рівні. Text VAE відображає текст у безперервний потенційний простір, блок-казуальний DiT навчається потенційним передумовам за допомогою Flow Matching, а кінцева умовна декодер відновлює потенційні змінні у текст. Загальна кількість параметрів приблизно 2,3 мільярди (DiT 1,8 мільярда, VAE 500 мільйонів). У 8 оцінках він конкурує з базовими моделями AR/LLaDA такого ж масштабу і займає провідні позиції, але все ще є дослідницьким контрольним пунктом, не пройшовши інструкційне тонке налаштування або RLHF, поточний репозиторій містить лише текстовий конвеєр, у майбутньому можливо розширення до текст-образ.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено