Команда NUS опублікувала базовий рівень GameWorld, оцінюючи мультимодальних AI-агентів у 34 браузерних іграх

robot
Генерація анотацій у процесі
ME Новини повідомляють, 17 квітня (UTC+8), згідно з моніторингом Датчі Beating, команда Національного університету Сінгапуру (NUS) опублікувала GameWorld — базовий тест для стандартизації оцінки мультимодальних великих мовних моделей (MLLM) у відеоіграх як універсальної здатності агента. Це дослідження вказує, що хоча відеоігри забезпечують ідеальну закриту тестову платформу для взаємодії, існуюча оцінка часто обмежена через нерівномірний інтерфейс управління та людське евристичне підтвердження. GameWorld містить 34 різноманітні браузерні ігри та 170 завдань, кожне з яких обладнане перевірюваними показниками на основі стану гри для об’єктивної оцінки результатів. Команда дослідників протестувала два типи інтерфейсів для агентів: перший — «використання комп’ютера (computer-use)», що безпосередньо видає команди клавіатури і миші, і другий — універсальний мультимодальний агент, який оперує у семантичному просторі дій через семантичний аналіз. У масштабному тестуванні 18 «комбінацій моделей і інтерфейсів» результати показали, що навіть найкращі на сьогодні AI-агенти значно поступаються людським можливостям у відеоіграх. Дослідження також виявило серйозні виклики для агентів у реальному часі, включаючи затримки взаємодії, чутливість до контекстної пам’яті та ефективність дій. Відповідна стаття та код проекту вже опубліковані на Hugging Face та GitHub. (Джерело: BlockBeats)
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • 7
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
FrontrunTherapy
· 6год тому
Реальний час затримки та пам’ять контексту — ці дві проблеми, ймовірно, залишаться невирішеними ще півроку.
Переглянути оригіналвідповісти на0
GateUser-c4e25c95
· 6год тому
Команди клавіатури та миші — це занадто жорстко, універсальна мультимодальність — це правильне рішення
Переглянути оригіналвідповісти на0
StakingDaydreamer
· 6год тому
Низка ефективності дій свідчить про слабкість рівня планування, ланцюг сприйняття-прийняття рішень не налагоджений.
Переглянути оригіналвідповісти на0
ExitLiquidityPoet
· 6год тому
Публічний код отримав хороші відгуки, бар'єр для відтворення знизився, спільнота може разом ітеративно покращувати.
Переглянути оригіналвідповісти на0
RevokingPermissionsOnARainy
· 6год тому
Браузерне середовище виявляється складнішим, ніж уявлялося: зміни DOM швидкі, стан прихований, агент легко заплутатися
Переглянути оригіналвідповісти на0
  • Закріплено