Двухуровневая внимательность с грубой фильтрацией и точным расчетом, в поздних этапах обучения переключение обратно на полное внимание для предотвращения пропуска чтения, производительность модели 5.3B не снизилась, а даже улучшилась. Длинный контекст наконец-то перестал требовать жесткой нагрузки на память.

Посмотреть Оригинал
MeNews
Nous открывает исходный код Lighthouse Attention: один B200 ускоряет 512K в 17 раз
AIMPACT утверждает, что Nous Research разработала открытую механизм предобучения с длинным контекстом Lighthouse Attention. Одноплатный B200 обрабатывает 512K текста примерно в 17 раз быстрее, при 98K — ускорение от конца до конца составляет 1.4–1.7 раза. Этот механизм сначала выполняет грубую фильтрацию, затем точное вычисление, отбирая ключевые фрагменты с помощью многоуровневого резюме и объединяя их в короткий текст, который затем обрабатывается FlashAttention; логика фильтрации находится вне ядра, что исключает необходимость в низкоуровдовом коде и дополнительных обучающих целях. Чтобы избежать потери способности читать слово за словом при прыжках модели, во время обучения сначала выполняется большая часть работы в ускоренном режиме, а в конце короткое переключение обратно на полное внимание. В эксперименте с 530 миллионами параметров и 50 миллиардами токенов время обработки значительно снизилось, а конечная производительность оказалась сопоставимой или даже превосходящей традиционные базовые модели.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено