Команда NUS опублікувала базовий рівень GameWorld, оцінюючи мультимодальних AI-агентів у 34 браузерних іграх

robot
Генерація анотацій у процесі
ME Новини повідомляють, 17 квітня (UTC+8), згідно з моніторингом 动察 Beating, команда Національного університету Сінгапуру (NUS) опублікувала GameWorld — базовий тест для стандартизації оцінки можливостей мультимодальних великих мовних моделей (MLLM) у відеоіграх як універсальних агентів. Це дослідження вказує, що хоча відеоігри забезпечують ідеальну закриту тестову платформу для взаємодії, існуюча оцінка часто обмежена через нерівномірний інтерфейс управління та ручну гіпотетичну верифікацію. GameWorld включає 34 різноманітні браузерні ігри та 170 завдань, кожне з яких обладнане перевірюваними індикаторами на основі стану гри для об’єктивної оцінки результатів. Команда дослідників протестувала два типи агентських інтерфейсів: перший — «комп’ютерне використання (computer-use)», що безпосередньо видає команди клавіатури і миші, другий — універсальний мультимодальний агент, який оперує у семантичному просторі дій через семантичний аналіз. У масштабному тестуванні 18 «комбінацій моделей і інтерфейсів» результати показали, що навіть найкращі сучасні AI-агенти значно поступаються людським можливостям у відеоіграх. Дослідження також виявило серйозні виклики для агентів у реальному часі, зокрема затримки взаємодії, чутливість до контекстної пам’яті та ефективність дій. Відповідна стаття та код проекту вже опубліковані на Hugging Face та GitHub. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 10
  • 7
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
FeeswitchWhisperer
· 3год тому
Цей бенчмарк опубліковано, і змагання агентів у ігровому напрямку нарешті починають активізуватися, чекаємо на підтримку від великих компаній.
Переглянути оригіналвідповісти на0
SeaSaltSparklingWater
· 12год тому
Підтверджувані показники є ключовими, раніше занадто багато суб'єктивних оцінок, що суперечили одна одній і не давали точного результату.
Переглянути оригіналвідповісти на0
PickingUpAirdropsInTheFog
· 13год тому
Вибір сцени браузерної гри був чудовим, він поєднує візуальні виклики та складність взаємодії, і при цьому не потрібно возитися з налаштуванням середовища.
Переглянути оригіналвідповісти на0
VintageKeychain
· 13год тому
HuggingFace і GitHub обидва відкриті для спільного використання, молодець, зниження порогу повторення дозволяє просувати розвиток спільноти
Переглянути оригіналвідповісти на0
LiquidationRaincoat
· 13год тому
computer-use vs універсальний мультимодальний цей порівняльний дизайн досить цікавий, хочу побачити, у яких саме сценаріях семантичний простір навпаки програє
Переглянути оригіналвідповісти на0
TidalShellReflection
· 13год тому
18 моделей-комбінацій інтерфейсів, експерименти з абляцією зроблені досить детально, стиль роботи команди NUS мені подобається
Переглянути оригіналвідповісти на0
OwlAuthorizationMonitor
· 13год тому
Ефективність дії — цей показник добре спроектований, багато бенчмарків цікавляться лише кінцевим результатом, не звертаючи уваги на елегантність процесу.
Переглянути оригіналвідповісти на0
Paper-CutOctopusMarketAnalysis
· 13год тому
Найкращі результати все ще далекі від людських, здається, агентам у грі ще довго доведеться йти шляхом, який не можна вирішити простою налаштуванням параметрів.
Переглянути оригіналвідповісти на0
0xLateDinner
· 13год тому
Реальний час затримки та чутливість до пам’яті контексту — ці дві проблеми надто реальні, і ті, хто грав у швидкісні ігри, це добре знають.
Переглянути оригіналвідповісти на0
PixelatedDriedFish
· 13год тому
Нарешті команда серйозно взялася за агентський бенчмарк для браузерних ігор, 34 ігри та 170 завдань, ця покриття може бути
Переглянути оригіналвідповісти на0
Дізнатися більше
  • Закріплено