Открытое исходное кодирование! Nous вынес логику фильтрации за ядро, не нужно менять низкоуровневый CUDA и не нужно добавлять цели обучения — просто подключи и используй, проблема длинных текстов в инфраструктуре решена.

Посмотреть Оригинал
MeNews
Nous открывает исходный код Lighthouse Attention: один B200 ускоряет 512K в 17 раз
AIMPACT утверждает, что Nous Research разработала открытую механизм предобучения с длинным контекстом Lighthouse Attention. Одноплатный B200 обрабатывает 512K текста примерно в 17 раз быстрее, при 98K — ускорение от конца до конца в 1.4–1.7 раза. Этот механизм сначала выполняет грубую фильтрацию, а затем точное вычисление, отбирая ключевые фрагменты с помощью многоуровневых резюме и объединяя их в короткий текст, который затем обрабатывается FlashAttention; логика фильтрации находится вне ядра, что исключает необходимость в низкоуровдовом коде и дополнительных обучающих целях. Чтобы избежать потери способности читать слово за словом при прыжках модели, во время обучения большая часть работы выполняется в ускоренном режиме, а в конце короткое переключение обратно на полное внимание. В эксперименте с 530 миллионами параметров и 50 миллиардами токенов время обработки значительно снизилось, а конечная производительность оказалась сопоставимой или даже превосходящей традиционные базовые модели.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено