NVIDIA выпустила Gamma-World, многопрограммную модель мира с несколькими агентами, поддерживающую совместную работу четырех человек и реальное время 24 FPS

robot
Генерация тезисов в процессе
ME AI Сообщение, согласно мониторингу Beating, исследователи NVIDIA в сотрудничестве с Университетом Цинхуа, Университетом Торонто и Институтом Vector опубликовали многоагентную генеративную модель мира Gamma-World, которая преодолела долгосрочные ограничения моделирования виртуальной среды, ранее ограниченной взаимодействием одного или двух игроков. Команда сейчас разместила страницу проекта и статью, а код и веса планируется открыть в ближайшее время. Модель вводит механизмы расширения высокоразмерного позиционного кодирования с вращением и информационных посреднических меток, обеспечивая возможность независимого управления несколькими игроками и впервые реализуя прямое масштабирование с двухигрового нулевого образца до четырехигрового сотрудничества без повторного обучения. Основная проблема многоагентной модели мира — обеспечить независимое управление каждым игроком и отсутствие конфликтов в действиях. Исследовательская команда разработала одностороннее вращающееся кодирование агентов (Simplex Rotary Agent Encoding), расширяя классическое вращающееся позиционное кодирование (RoPE) в высокоразмерное угловое пространство. Новый метод кодирования делает всех игроков полностью равноправными с точки зрения физической симметрии, не завися от фиксированных номеров игроков, что обеспечивает более естественное независимое указание и управление. Чтобы избежать квадратичного роста вычислительных затрат при увеличении числа игроков, был введен механизм разреженного центра внимания (Sparse Hub Attention). Система передает взаимодействующую информацию через обучаемые центральные метки, успешно сокращая вычислительные затраты внимания между игроками до линейного уровня. В части скорости генерации команда дистиллировала модель с высокой задержкой — диффузионную модель учителя — в причинную модель ученика, используя кэш ключей и значений (KV Cache), что обеспечивает вывод действий в реальном времени с частотой 24 кадра в секунду (24 FPS). Оценка в многопользовательской игровой среде показала, что новая модель значительно превосходит традиционные сети с слотами и плотным вниманием по качеству видеоряда, управляемости реакций и согласованности между игроками. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 8
  • 2
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
GateUser-b74aba1c
· 5ч назад
Sparse Hub Attention снизилась до линейной стоимости, наконец-то больше не нужно смотреть презентации.
Посмотреть ОригиналОтветить0
MemeFisher
· 6ч назад
KV-кэширование + учительское дистилляция, максимальная оптимизация проекта
Посмотреть ОригиналОтветить0
GlassDomeObservatory
· 6ч назад
Контролируемость изображения превосходит традиционные сети, и генеративные мировые модели должны стать популярными
Посмотреть ОригиналОтветить0
LiquidityLibrarian
· 6ч назад
После просмотра захотел повторить, обнаружил, что не хватает карт.
Посмотреть ОригиналОтветить0
ArbiterOfFees
· 7ч назад
NVIDIA делает ставку на создание игрового мира с помощью ИИ
Посмотреть ОригиналОтветить0
ProofOfVibes
· 7ч назад
Ключевым является то, что каждый игрок контролирует эту точку независимо, что ранее было невозможно реализовать в многих方案.
Посмотреть ОригиналОтветить0
MarginMarmot
· 7ч назад
Двух человек напрямую расширить до четырех, новая арена Закона масштабирования
Посмотреть ОригиналОтветить0
SentimentIndicatorHarvester
· 7ч назад
Традиционная сеть: Вы вежливы?
Посмотреть ОригиналОтветить0
  • Закреплено