Nous відкриває Lighthouse Attention: один B200 для запуску 512K прискорює в 17 разів

robot
Генерація анотацій у процесі
AIMPACT повідомлення, 16 травня (UTC+8), згідно з моніторингом Датчі Beating, Nous Research відкрила вихідний код механізму довгого контексту попереднього навчання Lighthouse Attention. При обробці тексту довжиною 512K на одній відеокарті B200 швидкість обчислень цього рішення приблизно в 17 разів швидша за традиційний механізм, а при довжині 98K досягає прискорення від 1.4 до 1.7 разів у кінцевому тренуванні. Традиційний механізм уваги вимагає обчислення всіх парних взаємовідносин слів, і при збільшенні довжини тексту обчислювальні ресурси зростають у квадратичному масштабі. Lighthouse Attention використовує підхід спочатку швидкого попереднього відбору, а потім точного обчислення. Він швидко переглядає стислий виклад тексту на різних рівнях, оцінює його, щоб виділити ключові фрагменти, які формують короткий текст, і потім безпосередньо передає їх до вже існуючого ефективного оператора FlashAttention для обробки. Оскільки логіка відбору повністю виведена за межі ядра, розробники безпосередньо позбавляються клопоту з написання низькорівневого коду і не додають додаткових цілей для тренування. Раніше схожі підходи для прискорення часто мали побічні ефекти: модель, звикла до пропускного читання, легко втрачала здатність до детального читання слова за словом. Щоб уникнути цієї пастки, команда розробників дозволила моделі спочатку пройти більшу частину тренування у прискореному режимі, а наприкінці коротко повернутися до традиційного повного обчислення уваги для адаптації. У практичних тестах на моделі з 530 мільйонами параметрів, що тренувалися на 50 мільярдах токенів, така стратегія не лише значно скоротила час тренування, а й у підсумку показала результати, що повністю зрівнялися або навіть перевищили результати базової версії, тренованої традиційним способом. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 9
  • 2
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
PartiallyMeltedIceCream
· 2год тому
17-кратне прискорення трохи перебільшено, але 98K всього 1.4-1.7 рази, здається, чим довше — тим очевидніший прибуток
Переглянути оригіналвідповісти на0
ACalmnessWithAHintOfPomelo
· 3год тому
Багаторівневе підсумовування коротких текстів і повторне використання FlashAttention — ця техніка дуже хитра.
Переглянути оригіналвідповісти на0
GateUser-8ca669fd
· 3год тому
Довгий контекстний конкурс переходить до етапу інженерної оптимізації, він більш захоплюючий ніж параметри стосу.
Переглянути оригіналвідповісти на0
TidalShell
· 3год тому
Традиційна базова лінія була перевершена — трохи несподівано, думав, що прискорення завжди коштує якості
Переглянути оригіналвідповісти на0
GateUser-318a7dc8
· 3год тому
5.3B параметрів достатньо для верифікації, навіть невеликі команди можуть слідувати за цим
Переглянути оригіналвідповісти на0
GateUser-d6fb8ff1
· 3год тому
Коли код буде опубліковано, я перевірю, скільки K зможе витримати моя 4090
Переглянути оригіналвідповісти на0
Glass-HeartMarketMaker
· 3год тому
Вилучення додаткових цілей тренування є надзвичайно важливим, інакше навіть якщо відкриють код, ніхто не зможе його тренувати.
Переглянути оригіналвідповісти на0
OrderbookOtter
· 3год тому
Назва Lighthouse добре підібрана, спочатку освітлює ключові моменти, а потім детально розглядає.
Переглянути оригіналвідповісти на0
TokenTinkerTao
· 3год тому
B200 однокарта 512K, у майбутньому особисте запуск довгих документів RAG знизить витрати
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріплено