ME Новини повідомляють, 17 квітня (UTC+8), згідно з моніторингом Датчі Beating, команда Національного університету Сінгапуру (NUS) опублікувала GameWorld — базовий тест для стандартизації оцінки мультимодальних великих мовних моделей (MLLM) у відеоіграх як універсальної здатності агента. Це дослідження вказує, що хоча відеоігри забезпечують ідеальну закриту тестову платформу для взаємодії, існуюча оцінка часто обмежена через нерівномірний інтерфейс управління та людське евристичне підтвердження. GameWorld містить 34 різноманітні браузерні ігри та 170 завдань, кожне з яких обладнане перевірюваними показниками на основі стану гри для об’єктивної оцінки результатів. Команда дослідників протестувала два типи інтерфейсів для агентів: перший — «використання комп’ютера (computer-use)», що безпосередньо видає команди клавіатури і миші, і другий — універсальний мультимодальний агент, який оперує у семантичному просторі дій через семантичний аналіз. У масштабному тестуванні 18 «комбінацій моделей і інтерфейсів» результати показали, що навіть найкращі на сьогодні AI-агенти значно поступаються людським можливостям у відеоіграх. Дослідження також виявило серйозні виклики для агентів у реальному часі, включаючи затримки взаємодії, чутливість до контекстної пам’яті та ефективність дій. Відповідна стаття та код проекту вже опубліковані на Hugging Face та GitHub. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

13 лайків

Нагородити
13
5
7
Поділіться

Прокоментувати

Додати коментар

FrontrunTherapy

· 6год тому

Реальний час затримки та пам’ять контексту — ці дві проблеми, ймовірно, залишаться невирішеними ще півроку.