Nous開源Lighthouse Attention:單B200跑512K提速17倍


Nous Research відкрила механізм довгого контексту попереднього навчання Lighthouse Attention. При обробці тексту довжиною 512K на одній відеокарті B200 ця схема в 17 разів швидша за традиційний механізм і досягає прискорення від 1.4 до 1.7 разів у кінцевому навчанні при довжині 98K.
Традиційний механізм уваги вимагає обчислення всіх парних відносин слів, і при збільшенні довжини тексту обчислювальні витрати зростають у квадратичному масштабі. Lighthouse Attention використовує підхід спочатку швидкого попереднього відбору, а потім точного обчислення. Він швидко переглядає стислий виклад тексту на різних рівнях, оцінює його, щоб виділити ключові фрагменти, які формують короткий текст, і потім безпосередньо передає їх у вже існуючий ефективний оператор FlashAttention для обробки. Оскільки логіка відбору повністю винесена за межі ядра, розробники безпосередньо позбавляються клопоту з написання низькорівневого коду і не потрібно додавати додаткові цілі навчання.
$AI
{spot}(AIUSDT)
Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено