ME News Новини, 17 квітня (UTC+8), згідно з моніторингом Beating, команда Національного університету Сінгапуру (NUS) випустила GameWorld — базовий тест для стандартизації оцінки багатомодальних великих мовних моделей (MLLM) у відеоіграх як універсальної здатності агента. Це дослідження вказує, що хоча відеоігри забезпечують ідеальну закриту тестову платформу для взаємодії, існуюча оцінка часто обмежена через нерівномірний інтерфейс управління та людську гіпотетичну верифікацію. GameWorld містить 34 різноманітні браузерні ігри та 170 завдань, і для кожного завдання обладнано перевірюваними показниками на основі стану гри для об'єктивної оцінки результатів. Команда дослідників протестувала два типи інтерфейсів агента: перший — «використання комп’ютера (computer-use)», що безпосередньо видає команди клавіатури і миші, другий — через семантичний аналіз у просторі семантичних дій.

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
TradfiTradingChallenge
227.78K Популярність
#
GrayscaleBuysAndStakesOver510KHYPE
8.91M Популярність
#
IsraelStrikesIranBTCPlunges
48.48K Популярність
#
#DailyPolymarketHotspot
1.01M Популярність
#
SpaceXOfficiallyFilesforIPO
748.48K Популярність

Закріплено

карта сайту

Область семантичних дій проти прямого керування клавіатурою та мишею, порівняння двох інтерфейсів, щоб подивитися дані

Популярні теми

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Закріплено