Согласно мониторингу Beating, команда MIT под руководством Хэ Кайминга выпустила модель распространения языка ELF (Embedded Language Flows). Она не использует автогрессивный подход GPT — «предсказание следующего токена», а вместо этого переносит генерацию текста в непрерывное векторное пространство, и только на последнем шаге преобразует его обратно в дискретные токены.

Модели распространения уже хорошо зарекомендовали себя в генерации изображений, но при применении к тексту это вызывает сложности: изображение по своей природе является непрерывным сигналом, а язык состоит из дискретных токенов. Ранее многие модели распространения для текста использовали либо повторное внедрение токенов в процессе генерации, либо требовали отдельного декодера. Подход ELF более чистый: большинство шагов выполняется только в непрерывном векторном пространстве, а дискретизация осуществляется на финальном этапе с помощью сети с общими весами.

Результаты экспериментов также впечатляют. В оценке генерации безусловных текстов OpenWebText, ELF-B с 105 миллионами параметров достигла примерно 24.1 Gen. PPL за 32 шага выборки, превзойдя множество базовых моделей на основе дискретных и непрерывных моделей распространения языка. Более важно, что ELF-B использовала всего около 45 миллиардов обучающих токенов, тогда как сравниваемые методы обычно требуют более 500 миллиардов — то есть обучение потребляло примерно в десять раз меньше токенов. Этот результат как минимум показывает, что подход на основе непрерывного распространения не «заглушен» «дискретностью языка», и предыдущие проблемы скорее связаны с интерфейсами моделирования и стратегиями выборки.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateSquareMayTradingShare
1.56M Популярность
#
IsraelStrikesIranBTCPlunges
46.57K Популярность
#
#DailyPolymarketHotspot
923.47K Популярность
#
JaneStreetReducesBitcoinETFHoldings
99.13K Популярность
#
TrumpVisitsChinaMay13
26.08M Популярность

Закрепить

Карта сайта

Команда Хэ Кайминга ELF: модель распространения языка наконец запущена

Популярные темы

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChinaMay13

Закрепить