Lighthouse Attention ця ідея досить чудова, спочатку грубо відфільтрувати, потім точно обчислити, вставляючи довгий контекст у зону комфорту FlashAttention, при цьому не потрібно змінювати низькорівневий CUDA, одна карта B200 обробляє 512K швидше майже в 17 разів, наприкінці тренування повертаємося до повної уваги для збереження точності, інженерний підхід дуже правильний

Переглянути оригінал
MeNews
Nous відкриває Lighthouse Attention: один B200 для запуску 512K прискорення у 17 разів
AIMPACT стверджує, що Nous Research відкрив механізм довгого контексту для попереднього навчання Lighthouse Attention. Одноплатний B200 обробляє 512K тексту приблизно у 17 разів швидше, а при 98K — прискорення від кінця до кінця становить 1.4–1.7 разів. Цей механізм спочатку виконує грубу фільтрацію, а потім точне обчислення, відбираючи ключові фрагменти за допомогою багаторівневого підсумовування та з'єднуючи їх у короткий текст, який потім обробляється за допомогою FlashAttention; логіка відбору знаходиться поза ядром, що позбавляє необхідності у низькорівдовому коді та додаткових навчальних цілях. Щоб уникнути втрати здатності читати слово за словом через пропускання моделі, під час навчання переважна частина обчислень виконується у прискореному режимі, а наприкінці короткий період повертається до повної уваги. У експерименті з 530 мільйонами параметрів і 50 мільярдами токенів час обробки значно зменшився, а кінцева продуктивність була порівнянною або навіть перевищувала традиційні базові моделі.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено