Команда Хе Кайміна ELF: модель розповсюдження мови нарешті запущена

robot
Генерація анотацій у процесі

Згідно з моніторингом Beating, команда MIT Хе Каймінга випустила модель поширення мови ELF (Embedded Language Flows). Вона не використовує автогресивний підхід GPT «прогнозування наступного токена», а замість цього поміщає генерацію тексту у безперервний простір векторів, поки не досягне останнього кроку, коли він перетворюється назад у дискретні токени.

Моделі поширення вже стали зрілими у генерації зображень, але при застосуванні до тексту вони залишаються незграбними: зображення є природно безперервним сигналом, тоді як мова складається з дискретних токенів. Раніше багато моделей поширення для тексту з безперервним представленням або постійно вводили токени у процесі генерації, або потребували додаткового окремого декодера. Підхід ELF є більш чистим: більшість кроків виконується лише у безперервному просторі векторів для шумозаглушення, а остаточний крок — це дискретизація за допомогою спільної мережі з вагами.

Результати експериментів також вражають. У тесті безумовної генерації OpenWebText ELF-B з 105 мільйонами параметрів досягла приблизно 24.1 Gen. PPL за 32 кроки зразку, перевершуючи багато базових моделей мовних моделей на основі дискретних і безперервних моделей поширення. Що ще важливіше, ELF-B використовувала лише близько 45 мільярдів токенів для навчання, тоді як порівняльні методи зазвичай перевищують 500 мільярдів, тобто кількісно менше приблизно у один порядок. Цей результат щонайменше показує, що безперервний шлях поширення у мовному моделюванні не зачинений «мовною дискретністю», і попередні проблеми швидше стосувалися інтерфейсу моделювання та дизайну зразків.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити