Команда Каймінга Хе з MIT нещодавно випустила ELF (Embedded Language Flows), мовну дифузійну модель, яка відходить від автографресивного підходу «передбачити наступний токен», що використовується в моделях у стилі GPT. Натомість ELF виконує генерацію тексту в неперервному просторі вбудовувань, перетворюючи на дискретні токени лише на фінальному кроці.

У бенчмарках безумовної генерації OpenWebText модель ELF-B із 105 млн параметрів досягла приблизно 24,1 perplexity генерації (Gen. PPL) при вибірці 32 кроки, випередивши кілька базових ліній дифузійних мовних моделей — як дискретних, так і неперервних. Зокрема, ELF-B потребувала лише приблизно 45 мільярдів тренувальних токенів — на порядок менше, ніж порівнювані методи, які зазвичай перевищують 500 мільярдів токенів.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

05-13 00:16

Фонд Ethereum підтримує чіткий стандарт підписання ERC-7730 та запускає публічний реєстр

05-12 12:58

Artificial Analysis публікує бенчмарк агента для кодування; Zhipu GLM-5.1 посідає перше місце серед моделей із відкритим кодом

05-12 11:13

NVIDIA та MIT випускають фреймворк Lightning OPD для покращення ефективності дистиляції моделей у 4 рази та усунення проблем із пам’яттю GPU

05-12 10:45

Ввідний метод Douban запускається на macOS із голосовим введенням на основі ШІ та двомовним введенням

05-12 00:45

Thinking Machines запускає модель взаємодії з відгуком 200 мс, випереджаючи GPT-Realtime-2.0

Поглиблений аналіз

3 перспективні альткоїни, які можуть започаткувати наступний ринковий ралі

Crypto News Land05-12 14:11

100 мільйонів нових стартапів Thinking Machines представила інтерактивну модель ШІ в реальному часі, роблячи акцент на підході «говори — слухай — виконуй роботу».

ChainNewsAbmedia05-12 07:44

Google: великі мовні моделі використовують для реальних атак, AI може обходити механізми захисту з двофакторною автентифікацією

Market Whisper05-12 06:28

Прокоментувати

0/400

Немає коментарів