Sakana AI у співпраці з NVIDIA: дозволяє GPU пропускати 80% неефективних обчислень великих моделей, прискорення обробки H100 на 30%

robot
Генерація анотацій у процесі

За даними моніторингу Beating, Sakana AI у співпраці з NVIDIA відкрили формат розріджених даних під назвою TwELL та відповідний прискорювальний ядро, що успішно дозволяє GPU при роботі з великими моделями пропускати ті «недійсні обчислення», результати яких близькі до нуля. Ця схема без втрати точності моделі дозволяє підвищити швидкість обробки H100 до 30%, прискорити тренування до 24%, а також значно зекономити пікову пам’ять відеокарти. Передавальні шари великих моделей (FFN) споживають більшу частину параметрів і обчислювальної потужності. Але насправді, при кожному генеруванні тексту, понад 80% нейронів перебувають у «сплячому режимі» (з активністю близькою до нуля), не впливаючи на кінцевий результат. Якщо вдасться пропускати ці нейрони, можна зекономити величезну кількість обчислювальних ресурсів. Однак сучасні GPU природно оптимізовані для рівномірних щільних матриць, і при традиційних методах відбору розріджених корисних даних витрати на пошук і зчитування даних з’їдають усі заощаджені ресурси. Формат TwELL саме для подолання цього «жорсткого» обмеження апаратного забезпечення. Він повністю відповідає паралельній логіці GPU: замість того, щоб збирати розріджені дані по регіонах, він ділить дані на маленькі блоки (тайли), з якими GPU найкраще працює. Таким чином, обчислювальні ядра GPU можуть безпосередньо пакувати корисні дані локально, повністю усуваючи часозатратне глобальне читання і запис у пам’ять, і ідеально інтегруючись у сучасну конвеєрну систему прискорення чипа. У тестах на модель з 1,5 мільярда параметрів достатньо було додати невелике регуляризаційне обмеження під час тренування, щоб знизити реальний відсоток нейронів, що потребують обчислень, до менш ніж 2%, при цьому показники за сімома downstream-завданнями залишилися без змін. Дані також виявили закономірність: чим більша кількість параметрів у моделі, тим більше нейронів перебуває у сплячому режимі (у моделі з 2 мільярдами параметрів частка ненульових значень нижча на 38% порівняно з моделлю з 500 мільйонами). Це означає, що у майбутньому, при створенні ще більших моделей, ця оптимізація для апаратного забезпечення відкриє ще більш значні можливості для підвищення продуктивності.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити