ByteDance відкриває Cola DLM: переосмислення генерації тексту за допомогою моделей розсіювання

robot
Генерація анотацій у процесі
МЕ Новини, 16 травня (UTC+8), згідно з моніторингом Датча Beating, команда ByteDance Seed відкрила вихідний код Cola DLM. Це набір послідовних потенційних дифузійних мовних моделей, які намагаються обійти фіксований шлях генерації великих мовних моделей, що генерують по токену зліва направо, і перетворити текстову генерацію у спершу організацію високорівневої семантики, а потім повернення до конкретних слів. Основою Cola DLM є Text VAE + блок-каузальний DiT. Text VAE спочатку перетворює дискретний текст у безперервний потенційний простір, а блок-каузальний DiT навчається за допомогою Flow Matching для вивчення потенційного апріорі, і в кінці умовний декодер відновлює потенційні змінні у текст. Процес дифузії обробляє потенційну семантичну репрезентацію, а не безпосередньо на рівні токенів, що повторно шумить. У цій відкритій версії використовується модель рівня 2B, з приблизно 2,3 мільярдами загальних параметрів, з яких основний DiT має 1,8 мільярда параметрів, а додатково 500 мільйонів параметрів — VAE. У восьми тестах, таких як LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD, Story Cloze, стаття стверджує, що за єдиною генеративною протоколом оцінки вона вже демонструє масштабовану продуктивність, конкурентну з базовими моделями AR / LLaDA такого ж масштабу, і досягає найкращих результатів за середнім балом. Однак наразі це все ще дослідницький контрольний пункт і не є безпосередньо придатною для використання моделлю для діалогів. Офіційно зазначено, що ця модель не пройшла тонке налаштування за інструкціями та RLHF, її основне застосування — дослідження того, як послідовні потенційні дифузії можна використовувати для генерації тексту. У статті також показано попередні експерименти з розширенням до уніфікованого моделювання текстових і зображень, але цей відкритий репозиторій містить лише текстовий конвеєр. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 3
  • 1
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
BreadthHunter
· 4год тому
8 критеріїв оцінки зрівнялися з AR, але без RLHF, у реальному використанні можливо все ще трохи не дотягує
Переглянути оригіналвідповісти на0
VineGeometry
· 4год тому
Чи цей дизайн block-causal призначений для довгих текстів чи для підвищення ефективності? Детально у статті.
Переглянути оригіналвідповісти на0
GateUser-a4680931
· 4год тому
Чи може поширення на рівні потенційної семантики забезпечити стабільнішу якість генерації порівняно з AR, згідно з реальними тестами?
Переглянути оригіналвідповісти на0
  • Закріплено