TwELL пакує розріджені дані у вигляді плиток, слідує паралельній логіці GPU і пропускає нейрони з майже нульовою активацією локально, не втрачаючи точності. Під час тренування моделі з 1,5 мільярда параметрів за допомогою легкого регуляризаційного методу кількість ненульових нейронів зменшується до менш ніж 2%, максимальна швидкість обчислень під час інференсу зростає на 30%, під час тренування — на 24%, значно економлячи пікову відеопам’ять. Чим більша модель, тим більше нейронів у стані сплячки, і в майбутньому великі моделі отримають ще більші переваги у продуктивності.

MarsBitNews

2026-05-10 05:16:49

Генерація анотацій у процесі

За даними моніторингу Beating, Sakana AI у співпраці з NVIDIA відкрили формат розріджених даних під назвою TwELL та відповідний прискорювальний ядро, що успішно дозволяє GPU при роботі з великими моделями пропускати ті «недійсні обчислення», результати яких близькі до нуля. Ця схема без втрати точності моделі дозволяє підвищити швидкість обробки H100 до 30%, прискорити тренування до 24%, а також значно зекономити пікову пам’ять відеокарти. Передавальні шари великих моделей (FFN) споживають більшу частину параметрів і обчислювальної потужності. Але насправді, при кожному генеруванні тексту, понад 80% нейронів перебувають у «сплячому режимі» (з активністю близькою до нуля), не впливаючи на кінцевий результат. Якщо вдасться пропускати ці нейрони, можна зекономити величезну кількість обчислювальних ресурсів. Однак сучасні GPU природно оптимізовані для рівномірних щільних матриць, і при традиційних методах відбору розріджених корисних даних витрати на пошук і зчитування даних з’їдають усі заощаджені ресурси. Формат TwELL саме для подолання цього «жорсткого» обмеження апаратного забезпечення. Він повністю відповідає паралельній логіці GPU: замість того, щоб збирати розріджені дані по регіонах, він ділить дані на маленькі блоки (тайли), з якими GPU найкраще працює. Таким чином, обчислювальні ядра GPU можуть безпосередньо пакувати корисні дані локально, повністю усуваючи часозатратне глобальне читання і запис у пам’ять, і ідеально інтегруючись у сучасну конвеєрну систему прискорення чипа. У тестах на модель з 1,5 мільярда параметрів достатньо було додати невелике регуляризаційне обмеження під час тренування, щоб знизити реальний відсоток нейронів, що потребують обчислень, до менш ніж 2%, при цьому показники за сімома downstream-завданнями залишилися без змін. Дані також виявили закономірність: чим більша кількість параметрів у моделі, тим більше нейронів перебуває у сплячому режимі (у моделі з 2 мільярдами параметрів частка ненульових значень нижча на 38% порівняно з моделлю з 500 мільйонами). Це означає, що у майбутньому, при створенні ще більших моделей, ця оптимізація для апаратного забезпечення відкриє ще більш значні можливості для підвищення продуктивності.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareMayTradingShare
1.06M Популярність
#
BTCBackAbove80K
59.45M Популярність
#
IsraelStrikesIranBTCPlunges
45.63K Популярність
#
JapanTokenizesGovernmentBonds
1.91M Популярність
#
#DailyPolymarketHotspot
871.3K Популярність

Закріпити

карта сайту

Sakana AI у співпраці з NVIDIA: дозволяє GPU пропускати 80% неефективних обчислень великих моделей, прискорення обробки H100 на 30%

Популярні теми

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Закріпити