AIMPACT утверждает, что Nous Research разработала открытую механизм предобучения с длинным контекстом Lighthouse Attention. Одноплатный B200 обрабатывает 512K текста примерно в 17 раз быстрее, при 98K — ускорение от конца до конца в 1.4–1.7 раза. Этот механизм сначала выполняет грубую фильтрацию, а затем точное вычисление, отбирая ключевые фрагменты с помощью многоуровневых резюме и объединяя их в короткий текст, который затем обрабатывается FlashAttention; логика фильтрации находится вне ядра, что исключает необходимость в низкоуровдовом коде и дополнительных обучающих целях. Чтобы избежать потери способности читать слово за словом при прыжках модели, во время обучения большая часть работы выполняется в ускоренном режиме, а в конце короткое переключение обратно на полное внимание. В эксперименте с 530 миллионами параметров и 50 миллиардами токенов время обработки значительно снизилось, а конечная производительность оказалась сопоставимой или даже превосходящей традиционные базовые модели.

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
ShareYourUSStocksWinNvidia
3.31M Популярность
#
GatePartnersWithAlpacaToBridgeCryptoAndStocks
111.52K Популярность
#
IsraelStrikesIranBTCPlunges
52.78K Популярность
#
BTC触底66000
48.96M Популярность
#
ZECRalliesAgainstMarket
5.03M Популярность

Закреплено

Карта сайта

Популярные темы

ShareYourUSStocksWinNvidia

GatePartnersWithAlpacaToBridgeCryptoAndStocks

IsraelStrikesIranBTCPlunges

BTC触底66000

ZECRalliesAgainstMarket

Закреплено