Команда NUS выпустила бенчмарк GameWorld, включающий 34 браузерных игры, 170 задач, с проверяемыми метриками для объективной оценки. Тестируются два типа интерфейсов агентов: direct keyboard-mouse commands — компьютерное управление и универсальный мультимодальный агент, работающий в семаническом пространстве. Эмпирические результаты 18 комбинаций моделей и интерфейсов показывают, что даже лучшие из них значительно уступают человеку, а также сталкиваются с проблемами в области задержки в реальном времени, чувствительности к контекстной памяти и эффективности действий. Связанные статьи и код опубликованы на HuggingFace и GitHub.

MeNews

2026-05-21 11:56:03

Генерация тезисов в процессе

ME News Новости, 17 апреля (UTC+8), согласно мониторингу 动察 Beating, команда Национального университета Сингапура (NUS) выпустила GameWorld — эталонный тест, предназначенный для стандартизации оценки возможностей мультимодальных больших языковых моделей (MLLM) в видеоиграх как универсальных агентов. Исследование указывает, что несмотря на то, что видеоигры предоставляют идеальную замкнутую тестовую среду для взаимодействия, существующие оценки часто ограничены несогласованностью интерфейсов и ручной эвристической проверкой. GameWorld включает 34 разнообразных браузерных игры и 170 задач, а также снабжён проверяемыми метриками, основанными на состоянии игры, для объективной оценки результатов. Команда протестировала два типа интерфейсов для агентов: первый — «использование компьютера (computer-use)», который напрямую выводит команды клавиатуры и мыши, и второй — универсальный мультимодальный агент, который управляет в семантическом пространстве действий через семантический разбор. В масштабном тестировании 18 «комбинаций модели и интерфейса» результаты показали, что даже лучшие на сегодняшний день AI-агенты значительно уступают человеку по игровым способностям. Исследование также выявило серьёзные проблемы в области задержек при взаимодействии в реальном времени, чувствительности к контекстной памяти и эффективности действий. Связанный документ и исходный код проекта опубликованы на Hugging Face и GitHub. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

10 Лайков

Награда
10
9
6
Поделиться

комментарий

Добавить комментарий

SeaSaltSparklingWater

· 8ч назад

Проверяемые показатели — это ключ, ранее слишком много субъективных оценок, споров и нет точности

Посмотреть ОригиналОтветить0

PickingUpAirdropsInTheFog

· 8ч назад

Выбор сцены браузерной игры сделан отлично, она сочетает визуальные вызовы и сложность взаимодействия, при этом не требует настройки окружения.

Посмотреть ОригиналОтветить0

VintageKeychain

· 8ч назад

HuggingFace и GitHub оба открыты исходным кодом, молодец, снижение порога воспроизведения поможет стимулировать развитие сообщества

Посмотреть ОригиналОтветить0

LiquidationRaincoat

· 9ч назад

computer-use vs универсальный мультимодальный — этот сравнительный дизайн довольно интересен, хочу посмотреть, в каких конкретных сценариях семаническое пространство оказывается в меньшинстве

Посмотреть ОригиналОтветить0

TidalShellReflection

· 9ч назад

18 видов моделей-интерфейсов, абляционные эксперименты проведены очень подробно, стиль работы команды NUS мне нравится

Посмотреть ОригиналОтветить0

OwlAuthorizationMonitor

· 9ч назад

Эффективность действия这个指标设计得好，很多benchmark只关心最终得分不管过程是否优雅

Посмотреть ОригиналОтветить0

Paper-CutOctopusMarketAnalysis

· 9ч назад

Даже лучшие показатели далеко не достигают уровня человека, похоже, агентам в играх еще предстоит пройти долгий путь, и это не решается просто настройкой параметров.

Посмотреть ОригиналОтветить0

0xLateDinner

· 9ч назад

Реальное время задержки и чувствительность к памяти контекста — эти две проблемы слишком актуальны, все, кто играл в быстрые игры, это понимают.

Посмотреть ОригиналОтветить0

PixelatedDriedFish

· 9ч назад

Наконец-то команда серьезно занялась созданием бенчмарка агентов для браузерных игр, 34 игры и 170 задач — этого достаточно для охвата.

Посмотреть ОригиналОтветить0

Подробнее

Популярные темы
Подробнее
#
TradfiTradingChallenge
234.98K Популярность
#
GrayscaleBuysAndStakesOver510KHYPE
8.91M Популярность
#
IsraelStrikesIranBTCPlunges
48.48K Популярность
#
#DailyPolymarketHotspot
1.01M Популярность
#
SpaceXOfficiallyFilesforIPO
751.6K Популярность

Закреплено

Карта сайта

Команда NUS выпустила бенчмарк GameWorld, оценив мультимодальных AI-агентов в 34 браузерных играх

Популярные темы

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Закреплено