Предварительная тренировка ускорена в 2-3 раза, новая схема Nous TST столкнулась с спорами о «столкновениях»

robot
Генерация тезисов в процессе

ME News Новости, 14 мая (UTC+8), согласно мониторингу 动察 Beating, Nous Research выпустила новую схему предобучения больших моделей — обучение с наложением токенов (TST). Эта схема позволяет сократить время предобучения в 2-3 раза при одинаковых вычислительных затратах, за счет упаковки и сжатия соседних токенов на ранних этапах обучения. TST состоит из двух этапов. В первые 20% — 40% обучения модель больше не читает токены по одному, а «упаковывает» соседние токены, усредняет их и подает на вход, а на выходе предсказывает, какие токены входят в этот пакет (без учета внутреннего порядка). Затем модель возвращается к обычному предсказанию следующего токена. Поскольку базовая архитектура не изменена, модель, полученная по этой схеме, при выводе полностью совпадает с обычной моделью. Этот метод был проверен на модели MoE с максимальным количеством параметров 100 миллиардов. Суть этого подхода — «использовать данные для увеличения вычислительной мощности», ускоряя расход текстовых данных для сокращения времени вычислений. Если в будущем качественный текст будет исчерпан, его способность ускорять расход данных может стать слабым местом. Также, через несколько часов после публикации статьи, один из читателей отметил, что механизм TST очень похож на старую работу «Beyond Next Token Prediction», опубликованную в 2024 году. Команда авторов позже на Hugging Face признала, что это «небольшое совпадение в исследованиях (convergent research)» и пообещала обновить статью с дополнительными ссылками. (Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено