Хватит тупо наращивать вычислительные мощности! Исследования показывают, что большие модели становятся всё более «жёсткими» по мере обучения, и увеличение параметров не помогает.

robot
Генерация тезисов в процессе
ME AI сообщает, по данным мониторинга Beating, AI с увеличением времени обучения постепенно теряет способность усваивать новые знания (потеря пластичности), и в итоге чем больше обучается, тем более закостенелым становится. Если не удастся преодолеть потерю пластичности, большие модели никогда не смогут дешево непрерывно учиться: при каждом обновлении знаний приходится переобучать модель на всех исторических данных вместе с новыми, тратя огромные вычислительные мощности. Последнее исследование AI-стартапа Zyphra впервые доказало, что увеличение размера модели хоть и откладывает деградацию, но предельная отдача снижается, и простым наращиванием параметров потерю пластичности не устранить. Экстраполяция показывает, что модель с 1 млрд параметров начинает "тупеть" после обучения на 1,8 трлн токенов, а модель с 7 млрд — после 9 трлн. Еще более подрывным является то, что даже без смены задач, при обучении только на стабильном смешанном наборе данных, потеря пластичности все равно происходит. Исследование указывает на три основные причины "тупения" больших моделей: размер параметров увеличивается в процессе обучения, что при механизме LayerNorm препятствует передаче градиентов; массовый "отказ" нейронов в MLP-слоях (в некоторых моделях до 95% нейронов переходят в спящее состояние); паралич или "саботаж" головок внимания (когда они зацикливаются на отдельных символах или равномерно "размазывают" внимание по всему контексту). В качестве потенциальных методов лечения этих патологий предлагаются: ограничение роста параметров, периодическое "нейронное перезапуск" отказавших нейронов для принудительной активации, а также внесение случайного шума в механизм внимания для принудительной коррекции. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено