AIMPACT стверджує, що Nous Research відкрив механізм довгого контексту для попереднього навчання Lighthouse Attention. Одноплатний B200 обробляє 512K тексту приблизно у 17 разів швидше, а при 98K — прискорення від кінця до кінця становить 1.4–1.7 разів. Цей механізм спочатку виконує грубу фільтрацію, а потім точне обчислення, відбираючи ключові фрагменти за допомогою багаторівневого підсумовування та з'єднуючи їх у короткий текст, який потім обробляється за допомогою FlashAttention; логіка відбору знаходиться поза ядром, що позбавляє необхідності у низькорівдовому коді та додаткових навчальних цілях. Щоб уникнути втрати здатності читати слово за словом через пропускання моделі, під час навчання переважна частина обчислень виконується у прискореному режимі, а наприкінці короткий період повертається до повної уваги. У експерименті з 530 мільйонами параметрів і 50 мільярдами токенів час обробки значно зменшився, а кінцева продуктивність була порівнянною або навіть перевищувала традиційні базові моделі.

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
ShareYourUSStocksWinNvidia
3.32M Популярність
#
GatePartnersWithAlpacaToBridgeCryptoAndStocks
2.41M Популярність
#
IsraelStrikesIranBTCPlunges
52.87K Популярність
#
BTC触底66000
98.04M Популярність
#
ZECRalliesAgainstMarket
5.04M Популярність

Закріплено

карта сайту

Популярні теми

ShareYourUSStocksWinNvidia

GatePartnersWithAlpacaToBridgeCryptoAndStocks

IsraelStrikesIranBTCPlunges

BTC触底66000

ZECRalliesAgainstMarket

Закріплено