MIT команда Хай Мін Чжана запропонувала модель розповсюдження мови ELF (Embedded Language Flows), яка виконує розповсюдження шуму у безперервному просторі вбудованих просторів, а на останньому кроці перетворює вектор назад у дискретний токен, уникаючи автогресивного або незалежного декодування. ELF зосереджена на шумоподавленні у безперервному просторі, використовуючи спільні ваги для дискретизації. Експерименти показують, що ELF-B з 105М параметрами та 32-кроковим зразком має приблизно 24.1 PPL на OpenWebText Gen., при цьому тренувальний токен становить лише близько 45 мільярдів, що значно менше за зазвичай понад 500 мільярдів у порівнянних методах. Це свідчить про те, що безперервний шлях розповсюдження мови все ще є життєздатним, а проблеми здебільшого полягають у інтерфейсі моделювання та дизайні зразків.

BlockBeatNews

2026-05-13 05:20:33

Генерація анотацій у процесі

Згідно з моніторингом Beating, команда MIT Хе Каймінга випустила модель поширення мови ELF (Embedded Language Flows). Вона не використовує автогресивний підхід GPT «прогнозування наступного токена», а замість цього поміщає генерацію тексту у безперервний простір векторів, поки не досягне останнього кроку, коли він перетворюється назад у дискретні токени.

Моделі поширення вже стали зрілими у генерації зображень, але при застосуванні до тексту вони залишаються незграбними: зображення є природно безперервним сигналом, тоді як мова складається з дискретних токенів. Раніше багато моделей поширення для тексту з безперервним представленням або постійно вводили токени у процесі генерації, або потребували додаткового окремого декодера. Підхід ELF є більш чистим: більшість кроків виконується лише у безперервному просторі векторів для шумозаглушення, а остаточний крок — це дискретизація за допомогою спільної мережі з вагами.

Результати експериментів також вражають. У тесті безумовної генерації OpenWebText ELF-B з 105 мільйонами параметрів досягла приблизно 24.1 Gen. PPL за 32 кроки зразку, перевершуючи багато базових моделей мовних моделей на основі дискретних і безперервних моделей поширення. Що ще важливіше, ELF-B використовувала лише близько 45 мільярдів токенів для навчання, тоді як порівняльні методи зазвичай перевищують 500 мільярдів, тобто кількісно менше приблизно у один порядок. Цей результат щонайменше показує, що безперервний шлях поширення у мовному моделюванні не зачинений «мовною дискретністю», і попередні проблеми швидше стосувалися інтерфейсу моделювання та дизайну зразків.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareMayTradingShare
1.56M Популярність
#
IsraelStrikesIranBTCPlunges
46.57K Популярність
#
#DailyPolymarketHotspot
923.47K Популярність
#
JaneStreetReducesBitcoinETFHoldings
99.13K Популярність
#
TrumpVisitsChinaMay13
26.08M Популярність

Закріпити

карта сайту

Команда Хе Кайміна ELF: модель розповсюдження мови нарешті запущена

Популярні теми

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChinaMay13

Закріпити