ByteDance Seed відкритий код Cola DLM — це набір моделей для розповсюдження тексту на потенційно семантичному рівні. Text VAE відображає текст у безперервний потенційний простір, блок-казуальний DiT навчається потенційним пріоритетам за допомогою Flow Matching, а кінцево умовний декодер відновлює потенційні змінні у текст. Загальна кількість параметрів приблизно 2,3 мільярди (DiT 1,8 мільярда, VAE 500 мільйонів). У 8 оцінках він конкурує з базовими моделями AR/LLaDA такого ж масштабу і займає провідні позиції, але все ще є дослідницьким контрольним пунктом, не пройшовши інструкційне тонке налаштування або RLHF, поточний репозиторій містить лише текстовий конвеєр, у майбутньому можливо розширення до текст-образ.

MeNews

2026-05-27 18:10:52

Генерація анотацій у процесі

МЕ Новини, 16 травня (UTC+8), згідно з моніторингом Датча Beating, команда ByteDance Seed відкрила вихідний код Cola DLM. Це набір послідовних потенційних дифузійних мовних моделей, які намагаються обійти фіксований шлях генерації великих мовних моделей, що генерують по токену зліва направо, і перетворити текстову генерацію у спершу організацію високорівневої семантики, а потім повернення до конкретних слів. Основою Cola DLM є Text VAE + блок-каузальний DiT. Text VAE спочатку перетворює дискретний текст у безперервний потенційний простір, а блок-каузальний DiT навчається за допомогою Flow Matching для вивчення потенційного апріорі, і в кінці умовний декодер відновлює потенційні змінні у текст. Процес дифузії обробляє потенційну семантичну репрезентацію, а не безпосередньо на рівні токенів, що повторно шумить. У цій відкритій версії використовується модель рівня 2B, з приблизно 2,3 мільярдами загальних параметрів, з яких основний DiT має 1,8 мільярда параметрів, а додатково 500 мільйонів параметрів — VAE. У восьми тестах, таких як LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD, Story Cloze, стаття стверджує, що за єдиною генеративною протоколом оцінки вона вже демонструє масштабовану продуктивність, конкурентну з базовими моделями AR / LLaDA такого ж масштабу, і досягає найкращих результатів за середнім балом. Однак наразі це все ще дослідницький контрольний пункт і не є безпосередньо придатною для використання моделлю для діалогів. Офіційно зазначено, що ця модель не пройшла тонке налаштування за інструкціями та RLHF, її основне застосування — дослідження того, як послідовні потенційні дифузії можна використовувати для генерації тексту. У статті також показано попередні експерименти з розширенням до уніфікованого моделювання текстових і зображень, але цей відкритий репозиторій містить лише текстовий конвеєр. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

8 лайків

Нагородити
8
3
1
Поділіться

Прокоментувати

Додати коментар

BreadthHunter

· 4год тому

8 критеріїв оцінки зрівнялися з AR, але без RLHF, у реальному використанні можливо все ще трохи не дотягує

Переглянути оригіналвідповісти на0

VineGeometry

· 4год тому

Чи цей дизайн block-causal призначений для довгих текстів чи для підвищення ефективності? Детально у статті.

Переглянути оригіналвідповісти на0

GateUser-a4680931

· 4год тому

Чи може поширення на рівні потенційної семантики забезпечити стабільнішу якість генерації порівняно з AR, згідно з реальними тестами?

Переглянути оригіналвідповісти на0

Популярні теми
Дізнатися більше
#
StockTradingChallengeUpTo17000U
16.02M Популярність
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
832.38K Популярність
#
IsraelStrikesIranBTCPlunges
49.81K Популярність
#
GatePredictionMarketAddsSmartMoneyTracking
13.24M Популярність
#
MicronMarketCapBreaks1Trillion
45.1K Популярність

Закріплено

карта сайту

ByteDance відкриває Cola DLM: переосмислення генерації тексту за допомогою моделей розсіювання

Популярні теми

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Закріплено