Область семантических действий vs прямое управление клавиатурой и мышью, сравнение двух интерфейсов, чтобы посмотреть данные

Посмотреть Оригинал
MeNews
Команда NUS выпустила бенчмарк GameWorld, оценив мультимодальных AI-агентов в 34 браузерных играх
ME News 消息,4 月 17 日(UTC+8),据 动察 Beating 监测,新加坡国立大学(NUS)团队发布 GameWorld,一个旨在标准化评估多模态大语言模型(MLLM)在视频游戏中作为通用代理能力的基准测试。该研究指出,尽管视频游戏提供了理想的闭环交互测试床,但现有评估常受限于操作接口不统一和人工启发式验证。 GameWorld 包含 34 款多样的浏览器游戏和 170 项任务,并为每个任务配备了基于游戏底层状态的可验证指标,以实现客观的结果评估。研究团队测试了两种代理接口:一是直接输出键鼠指令的「计算机使用(computer-use)」代理,二是通过语义解析在语义动作空间中
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено