Lighthouse Attention эта идея довольно гениальна, сначала грубая фильтрация, затем точное вычисление, вставляя длинный контекст в зону комфорта FlashAttention, при этом не нужно менять низкоуровневый CUDA, на одной карте B200 при 512K быстрее почти в 17 раз, в конце обучения переключаются обратно на полное внимание для сохранения точности, очень практично и технологично

Посмотреть Оригинал
MeNews
Nous открывает исходный код Lighthouse Attention: один B200 обрабатывает 512K, ускорение в 17 раз
AIMPACT утверждает, что Nous Research разработала открытую механизм предобучения с длинным контекстом Lighthouse Attention. Одноплатный B200 обрабатывает 512K текста примерно в 17 раз быстрее, при 98K — ускорение от конца до конца в 1.4–1.7 раза. Этот механизм сначала выполняет грубую фильтрацию, а затем точное вычисление, отбирая ключевые фрагменты с помощью многоуровневых резюме и объединяя их в короткий текст, который затем обрабатывается FlashAttention; логика фильтрации находится вне ядра, что исключает необходимость в низкоуровдовом коде и дополнительных обучающих целях. Чтобы избежать потери способности читать слово за словом при прыжках модели, во время обучения большая часть работы выполняется в ускоренном режиме, а в конце короткое переключение обратно на полное внимание. В эксперименте с 530 миллионами параметров и 50 миллиардами токенов время обработки значительно снизилось, а конечная производительность оказалась сопоставимой или даже превосходящей традиционные базовые модели.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено