Команда Каймінга Хе випустила мовну дифузійну модель ELF із 45 млрд токенів для навчання

Команда Каймінга Хе з MIT нещодавно випустила ELF (Embedded Language Flows), мовну дифузійну модель, яка відходить від автографресивного підходу «передбачити наступний токен», що використовується в моделях у стилі GPT. Натомість ELF виконує генерацію тексту в неперервному просторі вбудовувань, перетворюючи на дискретні токени лише на фінальному кроці.

У бенчмарках безумовної генерації OpenWebText модель ELF-B із 105 млн параметрів досягла приблизно 24,1 perplexity генерації (Gen. PPL) при вибірці 32 кроки, випередивши кілька базових ліній дифузійних мовних моделей — як дискретних, так і неперервних. Зокрема, ELF-B потребувала лише приблизно 45 мільярдів тренувальних токенів — на порядок менше, ніж порівнювані методи, які зазвичай перевищують 500 мільярдів токенів.

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.
Прокоментувати
0/400
Немає коментарів