AIMPACT повідомлення, 16 травня (UTC+8), згідно з моніторингом Датчі Beating, Nous Research відкрила вихідний код механізму довгого контексту попереднього навчання Lighthouse Attention. При обробці тексту довжиною 512K на одній відеокарті B200 швидкість обчислень цього рішення приблизно в 17 разів швидша за традиційний механізм, а при довжині 98K досягає прискорення від 1.4 до 1.7 разів у кінцевому тренуванні. Традиційний механізм уваги вимагає обчислення всіх парних взаємовідносин слів, і при збільшенні довжини тексту обчислювальні ресурси зростають у квадратичному масштабі. Lighthouse Attention використовує підхід спочатку швидкого попереднього відбору, а потім точного обчислення. Він швидко переглядає стислий виклад тексту на різних рівнях, оцінює його, щоб виділити ключові фрагменти, які формують короткий текст, і потім безпосередньо передає їх до вже існуючого ефективного оператора FlashAttention для обробки. Оскільки логіка відбору повністю виведена за межі ядра, розробники безпосередньо позбавляються клопоту з написання низькорівневого коду і не додають додаткових цілей для тренування. Раніше схожі підходи для прискорення часто мали побічні ефекти: модель, звикла до пропускного читання, легко втрачала здатність до детального читання слова за словом. Щоб уникнути цієї пастки, команда розробників дозволила моделі спочатку пройти більшу частину тренування у прискореному режимі, а наприкінці коротко повернутися до традиційного повного обчислення уваги для адаптації. У практичних тестах на моделі з 530 мільйонами параметрів, що тренувалися на 50 мільярдах токенів, така стратегія не лише значно скоротила час тренування, а й у підсумку показала результати, що повністю зрівнялися або навіть перевищили результати базової версії, тренованої традиційним способом. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

7 лайків

Нагородити
7
9
2
Поділіться

Прокоментувати

Додати коментар

PartiallyMeltedIceCream

· 2год тому

17-кратне прискорення трохи перебільшено, але 98K всього 1.4-1.7 рази, здається, чим довше — тим очевидніший прибуток