Исследователи MIT раскрывают механизм сильного наложения LLM: удвоение ширины примерно вдвое уменьшает ошибку

robot
Генерация тезисов в процессе

AIMPACT сообщение, 3 мая (UTC+8), исследователи MIT раскрыли механизм надежного масштабирования производительности больших языковых моделей с увеличением масштаба, впервые предоставив экспериментальное подтверждение явления “наложения”. Исследование показало, что LLM обходят ограничение по размерности, храня несколько концепций в одной и той же размерности, что называется “сильным наложением”, позволяющим модели одновременно представлять все концепции, а ошибки возникают из-за шума, порожденного перекрытием. Команда использовала упрощенную модель Anthropic и открытые модели OPT, GPT-2, Qwen2.5, Pythia для проверки: удвоение ширины модели примерно вдвое уменьшает ошибки вдвое, показатель масштабирования достигает 0.91, что близко к теоретическому значению 1. Исследование ответило на два ключевых вопроса: масштабирование прекратится, когда ширина модели достигнет размера словаря; для задач на естественном языке равномерное распределение частот слов ограничивает ускорение пространства, но архитектурные решения, поощряющие наложение, могут обеспечить лучшую производительность при том же масштабе.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить