ME Новини повідомляють, 17 квітня (UTC+8), згідно з моніторингом 动察 Beating, команда Національного університету Сінгапуру (NUS) опублікувала GameWorld — базовий тест для стандартизації оцінки можливостей мультимодальних великих мовних моделей (MLLM) у відеоіграх як універсальних агентів. Це дослідження вказує, що хоча відеоігри забезпечують ідеальну закриту тестову платформу для взаємодії, існуюча оцінка часто обмежена через нерівномірний інтерфейс управління та ручну гіпотетичну верифікацію. GameWorld включає 34 різноманітні браузерні ігри та 170 завдань, кожне з яких обладнане перевірюваними індикаторами на основі стану гри для об’єктивної оцінки результатів. Команда дослідників протестувала два типи агентських інтерфейсів: перший — «комп’ютерне використання (computer-use)», що безпосередньо видає команди клавіатури і миші, другий — універсальний мультимодальний агент, який оперує у семантичному просторі дій через семантичний аналіз. У масштабному тестуванні 18 «комбінацій моделей і інтерфейсів» результати показали, що навіть найкращі сучасні AI-агенти значно поступаються людським можливостям у відеоіграх. Дослідження також виявило серйозні виклики для агентів у реальному часі, зокрема затримки взаємодії, чутливість до контекстної пам’яті та ефективність дій. Відповідна стаття та код проекту вже опубліковані на Hugging Face та GitHub. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

11 лайків

Нагородити
11
10
7
Поділіться

Прокоментувати

Додати коментар

FeeswitchWhisperer

· 3год тому

Цей бенчмарк опубліковано, і змагання агентів у ігровому напрямку нарешті починають активізуватися, чекаємо на підтримку від великих компаній.