Nous открывает исходный код Lighthouse Attention: один B200 ускоряет 512K в 17 раз

robot
Генерация тезисов в процессе
AIMPACT сообщение, 16 мая (UTC+8), согласно мониторингу 动察 Beating, Nous Research открыла механизм длительного контекстного предобучения Lighthouse Attention. При обработке текста длиной 512K на одной видеокарте B200 этот подход показывает скорость вычислений примерно в 17 раз выше по сравнению с традиционным механизмом, а при длине 98K достигается ускорение обучения от 1.4 до 1.7 раз. Традиционный механизм внимания требует вычисления всех парных связей слов, что при увеличении длины текста вызывает квадратичный рост затрат вычислительных ресурсов. Lighthouse Attention использует подход сначала быстрого предварительного отбора, а затем точных расчетов. Он сначала быстро просматривает сжатые резюме текста на разных уровнях, оценивает их и выбирает ключевые фрагменты, объединяя их в короткий текст, который затем передается готовым эффективным оператором FlashAttention для обработки. Поскольку логика фильтрации полностью вынесена за пределы ядра, разработчики избавлены от необходимости писать низкоуровневый код и не требуют добавления дополнительных целей обучения. В прошлом подобные ускоряющие решения часто имели побочные эффекты: модель, привыкшая к прыжкам по тексту, легко теряет способность к точному поэлементному чтению. Чтобы избежать этого, команда разработчиков позволила модели сначала пройти большую часть обучения в ускоренном режиме, а в конце коротко переключалась на традиционный полный механизм внимания для адаптации. В реальных тестах на модели с 530 миллионами параметров, обученной на 50 миллиардах токенов, такой подход не только значительно сокращает время обучения, но и показывает результаты, которые полностью сравнимы или даже превосходят базовую модель, обученную полностью традиционным способом. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 9
  • 2
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
PartiallyMeltedIceCream
· 1ч назад
17-кратное ускорение немного преувеличено, но при цене 98K всего 1.4-1.7 раза, похоже, чем дольше, тем больше выгода
Посмотреть ОригиналОтветить0
ACalmnessWithAHintOfPomelo
· 1ч назад
Многоуровневое суммирование коротких текстов и повторная обработка через FlashAttention — этот трюк в инженерии очень хитрый
Посмотреть ОригиналОтветить0
GateUser-8ca669fd
· 2ч назад
Длинный контекстный конкурс переходит в стадию инженерной оптимизации, что более интересно, чем параметры стека.
Посмотреть ОригиналОтветить0
TidalShell
· 2ч назад
Традиционная базовая линия была немного неожиданной, думал, что ускорение обязательно потребует жертвовать качеством
Посмотреть ОригиналОтветить0
GateUser-318a7dc8
· 2ч назад
5.3 миллиарда параметров — теперь можно проверить, небольшие команды тоже смогут следить за этим
Посмотреть ОригиналОтветить0
GateUser-d6fb8ff1
· 2ч назад
Когда код будет опубликован, проверю, сколько K сможет выдержать мой 4090.
Посмотреть ОригиналОтветить0
Glass-HeartMarketMaker
· 2ч назад
Исключение дополнительных целей обучения слишком важно, иначе даже при открытом исходном коде никто не сможет его натренировать.
Посмотреть ОригиналОтветить0
OrderbookOtter
· 2ч назад
Имя Lighthouse хорошо придумано, сначала освещает главное, затем рассматривает подробнее
Посмотреть ОригиналОтветить0
TokenTinkerTao
· 2ч назад
B200 однокарта 512K, в будущем у личных пользователей снизятся затраты на длинные документы RAG
Посмотреть ОригиналОтветить0
Подробнее
  • Закреплено