Nous Research відкрила механізм довгого контексту попереднього навчання Lighthouse Attention. При обробці тексту довжиною 512K на одній відеокарті B200 ця схема в 17 разів швидша за традиційний механізм і досягає прискорення від 1.4 до 1.7 разів у кінцевому навчанні при довжині 98K.
Традиційний механізм уваги вимагає обчислення всіх парних відносин слів, і при збільшенні довжини тексту обчислювальні витрати зростають у квадратичному масштабі. Lighthouse Attention використовує підхід спочатку швидкого попереднього відбору, а потім точного обчислення. Він швидко переглядає стислий виклад тексту на різних рівнях, оцінює його, щоб виділити ключові фрагменти, які формують короткий текст, і потім безпосередньо передає їх у вже існуючий ефективний оператор FlashAttention для обробки. Оскільки логіка відбору повністю винесена за межі ядра, розробники безпосередньо позбавляються клопоту з написання низькорівневого коду і не потрібно додавати додаткові цілі навчання.
$AI
{spot}(AIUSDT)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareMayTradingShare
1.92M Популярність
#
CLARITYActPassesSenateCommittee
3.57M Популярність
#
IsraelStrikesIranBTCPlunges
47.27K Популярність
#
#DailyPolymarketHotspot
971.91K Популярність
#
BitcoinVShapedReversalBack
227.15M Популярність

Закріплено

карта сайту

Nous開源Lighthouse Attention：單B200跑512K提速17倍

Популярні теми

GateSquareMayTradingShare

CLARITYActPassesSenateCommittee

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinVShapedReversalBack

Закріплено