AIMPACT повідомлення, 17 травня (UTC+8), Nous Research запустила метод Lighthouse Attention, який за допомогою вибіркового ієрархічного механізму уваги вирішує проблему квадратичного зростання обчислювальних витрат уваги при довгому попередньому навчанні послідовностей. Цей метод виконує симетричне пулінг Query, Key, Value, а логіка вибору розміщується поза ядром уваги, що дозволяє повторно використовувати ядро FlashAttention, і застосовує двоступеневу стратегію навчання. За результатами тестування на NVIDIA B200, при довжині контексту близько 512K швидкість прямого проходження збільшилася в 21 раз, а сумарна швидкість прямого і зворотного проходження — у 17,3 рази, перша стадія досягла пропускної здатності 126 000 токенів/с/ГПУ (проти 46 000 у щільного SDPA), а кінцева прискорення склала від 1,40× до 1,69×, при цьому зберігаючи або знижуючи втрати під час тренування. Перевірка на моделі стилю Llama-3 з 530M параметрів показала, що три групи Lighthouse дають кінцеві втрати (0,698-0,71), які краще за базовий щільний SDPA (0,7237), економлячи від 22,5 до 27 годин тренувального часу. Стаття arXiv:2605.06554.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
ShareYourUSStocksWinNvidia
3.4M Популярність
#
PredictNBAChampionWin20000U
2.08M Популярність
#
IsraelStrikesIranBTCPlunges
53.6K Популярність
#
ETHPlunges5PercentBelow1800
178.43M Популярність
#
HYPEHitsAllTimeHigh
13.54M Популярність

Закріплено

карта сайту

Nous Research випустила Lighthouse Attention, прискорення попереднього навчання довгих послідовностей у 1.4-1.7 рази

Популярні теми

ShareYourUSStocksWinNvidia

PredictNBAChampionWin20000U

IsraelStrikesIranBTCPlunges

ETHPlunges5PercentBelow1800

HYPEHitsAllTimeHigh

Закріплено