Команда NUS выпустила бенчмарк GameWorld, оценив мультимодальных AI-агентов в 34 браузерных играх

robot
Генерация тезисов в процессе
ME News Новости, 17 апреля (UTC+8), согласно мониторингу 动察 Beating, команда Национального университета Сингапура (NUS) выпустила GameWorld — эталонный тест, предназначенный для стандартизации оценки возможностей мультимодальных больших языковых моделей (MLLM) в видеоиграх как универсальных агентов. Исследование указывает, что несмотря на то, что видеоигры предоставляют идеальную замкнутую тестовую среду для взаимодействия, существующие оценки часто ограничены несогласованностью интерфейсов и ручной эвристической проверкой. GameWorld включает 34 разнообразных браузерных игры и 170 задач, а также снабжён проверяемыми метриками, основанными на состоянии игры, для объективной оценки результатов. Команда протестировала два типа интерфейсов для агентов: первый — «использование компьютера (computer-use)», который напрямую выводит команды клавиатуры и мыши, и второй — универсальный мультимодальный агент, который управляет в семантическом пространстве действий через семантический разбор. В масштабном тестировании 18 «комбинаций модели и интерфейса» результаты показали, что даже лучшие на сегодняшний день AI-агенты значительно уступают человеку по игровым способностям. Исследование также выявило серьёзные проблемы в области задержек при взаимодействии в реальном времени, чувствительности к контекстной памяти и эффективности действий. Связанный документ и исходный код проекта опубликованы на Hugging Face и GitHub. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 9
  • 6
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
SeaSaltSparklingWater
· 8ч назад
Проверяемые показатели — это ключ, ранее слишком много субъективных оценок, споров и нет точности
Посмотреть ОригиналОтветить0
PickingUpAirdropsInTheFog
· 8ч назад
Выбор сцены браузерной игры сделан отлично, она сочетает визуальные вызовы и сложность взаимодействия, при этом не требует настройки окружения.
Посмотреть ОригиналОтветить0
VintageKeychain
· 8ч назад
HuggingFace и GitHub оба открыты исходным кодом, молодец, снижение порога воспроизведения поможет стимулировать развитие сообщества
Посмотреть ОригиналОтветить0
LiquidationRaincoat
· 9ч назад
computer-use vs универсальный мультимодальный — этот сравнительный дизайн довольно интересен, хочу посмотреть, в каких конкретных сценариях семаническое пространство оказывается в меньшинстве
Посмотреть ОригиналОтветить0
TidalShellReflection
· 9ч назад
18 видов моделей-интерфейсов, абляционные эксперименты проведены очень подробно, стиль работы команды NUS мне нравится
Посмотреть ОригиналОтветить0
OwlAuthorizationMonitor
· 9ч назад
Эффективность действия这个指标设计得好,很多benchmark只关心最终得分不管过程是否优雅
Посмотреть ОригиналОтветить0
Paper-CutOctopusMarketAnalysis
· 9ч назад
Даже лучшие показатели далеко не достигают уровня человека, похоже, агентам в играх еще предстоит пройти долгий путь, и это не решается просто настройкой параметров.
Посмотреть ОригиналОтветить0
0xLateDinner
· 9ч назад
Реальное время задержки и чувствительность к памяти контекста — эти две проблемы слишком актуальны, все, кто играл в быстрые игры, это понимают.
Посмотреть ОригиналОтветить0
PixelatedDriedFish
· 9ч назад
Наконец-то команда серьезно занялась созданием бенчмарка агентов для браузерных игр, 34 игры и 170 задач — этого достаточно для охвата.
Посмотреть ОригиналОтветить0
Подробнее
  • Закреплено