مساحة الأفعال الدلالية مقابل التحكم المباشر بالفأرة ولوحة المفاتيح، مقارنة بين واجهتين لمعرفة البيانات

شاهد النسخة الأصلية
MeNews
فريق NUS يصدر معيار GameWorld، ويقيم وكلاء الذكاء الاصطناعي متعدد الأوضاع في 34 لعبة متصفح
أخبار ME، 17 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، أصدرت فريق جامعة نانيانغ التكنولوجية الوطنية (NUS) اختبارًا قياسيًا يُسمى GameWorld، يهدف إلى توحيد تقييم قدرة النماذج اللغوية متعددة الوسائط (MLLM) على العمل كوكلاء عامين في ألعاب الفيديو. وأشار البحث إلى أنه على الرغم من أن ألعاب الفيديو توفر منصة مثالية لاختبار التفاعل المغلق، إلا أن التقييمات الحالية غالبًا ما تكون مقيدة بسبب عدم توحيد واجهات التشغيل والتحقق الإرشادي البشري. يتضمن GameWorld 34 لعبة متصفح متنوعة و170 مهمة، ويزود كل مهمة بمؤشرات قابلة للتحقق تعتمد على الحالة الأساسية للعبة لتحقيق تقييم موضوعي للنتائج. اختبر فريق البحث نوعين من واجهات الوكيل: الأول هو وكيل "استخدام الكمبيوتر" الذي يصدر أوامر لوحة المفاتيح والفأرة مباشرة، والثاني هو عبر التحليل الدلالي في فضاء الأفعال الدلالية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت