Архитектура TwoTower от NVIDIA повышает эффективность больших моделей с помощью параллельных моделей на 30B

Согласно мониторингу Beating, компания NVIDIA открыла исходный код дискретной архитектуры текстовой диффузии Nemotron-Labs-TwoTower, предназначенной для решения проблемы скорости генерации больших моделей, которые могут выдавать только одно слово за раз. Предыдущие модели текстовой диффузии вынуждали одну сеть балансировать между однонаправленным пониманием контекста и двунаправленной параллельной коррекцией ошибок в погоне за параллельным выводом, что приводило к значительному снижению когнитивных способностей модели. Архитектура TwoTower использует развязанный дизайн: с одной стороны, она полностью замораживает предварительно обученную авторегрессивную большую модель как «контекстную башню только для чтения», чтобы сохранить полные способности к рассуждению и здравому смыслу; с другой стороны, она отдельно обучает «пишущую башню для шумоподавления», которая считывает контекстную информацию через перекрестное внимание на уровне слоев. Пишущая башня использует механизм «размаскировки уверенности», отдавая приоритет написанию слов с высокой уверенностью при предсказании блока и постепенно заполняя оставшиеся пробелы для достижения параллельного написания от простого к сложному. Этот дизайн адаптируется в модели смешанной архитектуры уровня 30B (Mamba-Transformer MoE), используя только 1/12 предварительных обучающих данных базовой модели (2,1T токенов), сохраняя 98,7% качества и увеличивая фактическую скорость генерации в 2,42 раза без добавления дополнительных накладных расходов на кэш памяти. Однако из-за необходимости держать обе башни в памяти модели увеличилось статическое использование памяти, и все еще наблюдается небольшое снижение точности в чрезвычайно сложных задачах кода и математических рассуждений.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено