Попереднє навчання прискорено в 2-3 рази, новий план Nous TST потрапив у суперечку через «зіткнення»

robot
Генерація анотацій у процесі

МЕ Новини повідомляють, 14 травня (UTC+8), згідно з моніторингом Дангча Beating, що Nous Research опублікувала нову схему попереднього навчання великих моделей — накладання токенів під час тренування (TST).
Ця схема шляхом упаковки та стиснення сусідніх токенів на початкових етапах тренування дозволяє скоротити час попереднього навчання в 2-3 рази при однаковій обчислювальній складності.
TST складається з двох етапів.
У перші 20% до 40% тренування модель більше не зчитує токени по одному, а «упаковує» сусідні токени, беручи їх середнє значення для подачі на вхід, і на виході передбачає, які токени входять до цього пакету (без урахування внутрішнього порядку).
Після цього модель повертається до звичайного прогнозування наступного токена.
Оскільки базова архітектура не змінена, модель, отримана за цим методом, при інференції повністю ідентична стандартній моделі.
Цей метод вже був підтверджений на моделі MoE з максимальною кількістю 100 мільярдів параметрів.
Суть цієї схеми — «замість обчислювальної потужності використовувати дані», тобто швидше витрачати ресурси на обробку тексту, щоб скоротити час обчислень.
Якщо у майбутньому високоякісний текст вичерпаний, ця здатність прискорювати споживання даних може стати слабким місцем.
Крім того, через кілька годин після публікації статті один із читачів зазначив, що механізм TST дуже схожий на стару роботу «Beyond Next Token Prediction», опубліковану у 2024 році.
Команда авторів згодом на Hugging Face визнала, що це «нещасне збіг у дослідженнях (convergent research)», і пообіцяла оновити статтю з додатковими посиланнями.
(Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено