Область семантичних дій проти прямого керування клавіатурою та мишею, порівняння двох інтерфейсів, щоб подивитися дані

Переглянути оригінал
MeNews
Команда NUS опублікувала базовий тест GameWorld, оцінюючи мультимодальних AI-агентів у 34 браузерних іграх
ME News Новини, 17 квітня (UTC+8), згідно з моніторингом Beating, команда Національного університету Сінгапуру (NUS) випустила GameWorld — базовий тест для стандартизації оцінки багатомодальних великих мовних моделей (MLLM) у відеоіграх як універсальної здатності агента. Це дослідження вказує, що хоча відеоігри забезпечують ідеальну закриту тестову платформу для взаємодії, існуюча оцінка часто обмежена через нерівномірний інтерфейс управління та людську гіпотетичну верифікацію. GameWorld містить 34 різноманітні браузерні ігри та 170 завдань, і для кожного завдання обладнано перевірюваними показниками на основі стану гри для об'єктивної оцінки результатів. Команда дослідників протестувала два типи інтерфейсів агента: перший — «використання комп’ютера (computer-use)», що безпосередньо видає команди клавіатури і миші, другий — через семантичний аналіз у просторі семантичних дій.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено