AIMPACT утверждает, что Nous Research разработала открытую механизм предобучения с длинным контекстом Lighthouse Attention. Одноплатный B200 обрабатывает 512K текста примерно в 17 раз быстрее, при 98K — ускорение от конца до конца составляет 1.4–1.7 раза. Этот механизм сначала выполняет грубую фильтрацию, затем точное вычисление, отбирая ключевые фрагменты с помощью многоуровневого резюме и объединяя их в короткий текст, который затем обрабатывается FlashAttention; логика фильтрации находится вне ядра, что исключает необходимость в низкоуровдовом коде и дополнительных обучающих целях. Чтобы избежать потери способности читать слово за словом при прыжках модели, во время обучения сначала выполняется большая часть работы в ускоренном режиме, а в конце короткое переключение обратно на полное внимание. В эксперименте с 530 миллионами параметров и 50 миллиардами токенов время обработки значительно снизилось, а конечная производительность оказалась сопоставимой или даже превосходящей традиционные базовые модели.

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateIPOAccessSpaceX
5.29M Популярность
#
AnthropicReleasesFable5Model
644.52K Популярность
#
IsraelStrikesIranBTCPlunges
56.94K Популярность
#
MyGateTradeStory
11.81K Популярность
#
SpaceXIPOAttractsOver250BillionInOrders
1.4M Популярность

Закреплено

Карта сайта

Популярные темы

GateIPOAccessSpaceX

AnthropicReleasesFable5Model

IsraelStrikesIranBTCPlunges

MyGateTradeStory

SpaceXIPOAttractsOver250BillionInOrders

Закреплено