AIMPACT сообщение, 17 мая (UTC+8), Nous Research представила метод Lighthouse Attention, который решает проблему квадратичного роста затрат на вычисление внимания при обучении на длинных последовательностях за счет выбора уровня внимания. Этот метод выполняет симметричное объединение Query, Key и Value, а логика выбора размещена вне ядра внимания, что позволяет использовать переиспользуемое ядро FlashAttention, и применяет двухэтапную стратегию обучения. В реальных тестах на NVIDIA B200 при длине контекста около 512K скорость прямого распространения увеличилась в 21 раз, а совокупная скорость прямого и обратного распространения — в 17.3 раза, при этом пропускная способность первого этапа достигла 126 тысяч токенов/с/ГПУ (по сравнению с 46 тысячами у плотного SDPA), а ускорение от конца до конца составило от 1.40× до 1.69×, при этом сохраняется такой же или меньший обучающийся loss. Проверка на модели в стиле Llama-3 с 530M параметров показала, что три варианта Lighthouse дают конечный loss (0.698–0.71), который лучше, чем у обученной с нуля плотной SDPA-базовой модели (0.7237), что экономит от 22.5 до 27 часов времени обучения. Статья arXiv:2605.06554.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
ShareYourUSStocksWinNvidia
3.4M Популярность
#
PredictNBAChampionWin20000U
2M Популярность
#
IsraelStrikesIranBTCPlunges
53.6K Популярность
#
ETHPlunges5PercentBelow1800
178.29M Популярность
#
HYPEHitsAllTimeHigh
9.45M Популярность

Закреплено

Карта сайта

Nous Research выпустила Lighthouse Attention, ускорение предобучения длинных последовательностей в 1,4-1,7 раза

Популярные темы

ShareYourUSStocksWinNvidia

PredictNBAChampionWin20000U

IsraelStrikesIranBTCPlunges

ETHPlunges5PercentBelow1800

HYPEHitsAllTimeHigh

Закреплено