AIMPACT повідомлення, 17 травня (UTC+8), Nous Research запустила метод Lighthouse Attention, який за допомогою вибіркового ієрархічного механізму уваги вирішує проблему квадратичного зростання обчислювальних витрат уваги при довгому попередньому навчанні послідовностей. Цей метод виконує симетричне пулінг Query, Key, Value, а логіка вибору розміщується поза ядром уваги, що дозволяє повторно використовувати ядро FlashAttention, і застосовує двоступеневу стратегію навчання. За результатами тестування на NVIDIA B200, при довжині контексту близько 512K швидкість прямого проходження зросла в 21 раз, а сумарна швидкість прямого і зворотного проходження — у 17,3 рази, перша стадія досягла пропускної здатності 126 000 токенів/с/ГПУ (проти 46 000 у щільного SDPA), а кінцева прискорення склало від 1,40× до 1,69×, при цьому зберігаючи або знижуючи тренувальну втрату. Перевірка на моделі стилю Llama-3 з 530M параметрів показала, що три групи Lighthouse дають кінцеву втрату (0,698–0,71), яка краще за базовий щільний SDPA (0,7237), економлячи від 22,5 до 27 годин тренування. Стаття arXiv:2605.06554.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareMayTradingShare
1.94M Популярність
#
CLARITYActPassesSenateCommittee
3.59M Популярність
#
IsraelStrikesIranBTCPlunges
47.35K Популярність
#
#DailyPolymarketHotspot
974.92K Популярність
#
BitcoinVShapedReversalBack
227.15M Популярність

Закріплено

карта сайту

Nous Research випустила Lighthouse Attention, прискорення попереднього навчання довгих послідовностей у 1.4-1.7 разів

Популярні теми

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Закріплено