Браузерні ігри як тестове поле досить розумні, навколишнє середовище однорідне, відтворення просте, набагато краще, ніж ті, що мають закриті API.

Переглянути оригінал
MeNews
Команда NUS опублікувала базовий рівень GameWorld, оцінюючи мультимодальних AI-агентів у 34 браузерних іграх
Команда NUS опублікувала базовий рівень GameWorld, що містить 34 браузерні ігри та 170 завдань, з підтверджуваними показниками для об'єктивної оцінки. Тестуються два типи проксі-інтерфейсів: computer-use, який використовує безпосередні командні клавіші та мишу, та універсальний мультимодальний проксі, що працює у семантичному просторі. Емпіричні результати для 18 комбінацій моделей та інтерфейсів показують, що навіть найкращі з них значно поступаються людині, а також мають труднощі з затримкою в реальному часі, чутливістю до контекстної пам’яті та ефективністю дій. Відповідні статті та код вже опубліковані на HuggingFace та GitHub.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено