использование компьютера против семантического прокси, два технологических подхода сталкиваются напрямую, данные говорят сами за себя

Посмотреть Оригинал
MeNews
Команда NUS выпустила бенчмарк GameWorld, оценив мультимодальных AI-агентов в 34 браузерных играх
Команда NUS выпустила бенчмарк GameWorld, включающий 34 браузерные игры, 170 задач, с проверяемыми метриками для объективной оценки. Тестируются два типа интерфейсов агентов: direct keyboard-mouse commands — компьютерное использование и универсальный мультимодальный агент, работающий в семаническом пространстве. Эмпирические результаты 18 комбинаций моделей и интерфейсов показывают, что даже лучшие из них значительно уступают человеку, а также сталкиваются с проблемами в области задержки в реальном времени, чувствительности к памяти контекста и эффективности действий. Связанные статьи и код опубликованы на HuggingFace и GitHub.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено