فريق NUS يصدر معيار GameWorld، ويقيم وكلاء الذكاء الاصطناعي متعدد الأوضاع في 34 لعبة متصفح

robot
إنشاء الملخص قيد التقدم
أخبار ME News، 17 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، أصدر فريق جامعة نانيانغ التكنولوجية الوطنية (NUS) معيارًا يسمى GameWorld، يهدف إلى توحيد تقييم قدرة النماذج اللغوية متعددة الوسائط (MLLM) على العمل كوكلاء عامين في ألعاب الفيديو. وأشار البحث إلى أن ألعاب الفيديو توفر منصة مثالية لاختبار التفاعل المغلق، لكن التقييمات الحالية غالبًا ما تكون محدودة بسبب عدم توحيد واجهات التشغيل والتحقق اليدوي الاسترشادي. يتضمن GameWorld 34 لعبة تصفح متنوعة و170 مهمة، ويزود كل مهمة بمؤشرات قابلة للتحقق تعتمد على الحالة الأساسية للعبة لتحقيق تقييم موضوعي للنتائج. اختبر فريق البحث واجهتين للوكيل: الأولى هي وكيل "استخدام الكمبيوتر" الذي يصدر أوامر لوحة المفاتيح والفأرة مباشرة، والثانية هي وكيل متعدد الوسائط عام يتفاعل عبر مساحة الأفعال الدلالية من خلال التحليل الدلالي. في اختبار واسع النطاق شمل 18 مجموعة من "النموذج-الواجهة"، أظهرت النتائج أن حتى أفضل الوكلاء الذكاء الاصطناعي الحاليين لا يقتربون من مستوى البشر في قدرات الألعاب. وكشف البحث أيضًا عن تحديات كبيرة تواجه وكلاء الألعاب في تقليل زمن الاستجابة في التفاعل المباشر، وحساسية الذاكرة السياقية، وفعالية الأفعال. تم نشر الورقة البحثية والكود الخاص بالمشروع على منصتي Hugging Face وGitHub. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 5
  • 7
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
FrontrunTherapy
· منذ 3 س
التأخير في الوقت الحقيقي وذاكرة السياق، هذين الحفرين، من المتوقع أن يظلوا غير مملوءين خلال نصف سنة على الأقل
شاهد النسخة الأصليةرد0
GateUser-c4e25c95
· منذ 3 س
أوامر لوحة المفاتيح والفأرة طريقة عنيفة جدًا، النموذج متعدد الوسائط العام هو الحل الصحيح
شاهد النسخة الأصليةرد0
StakingDaydreamer
· منذ 3 س
ضعف فعالية الحركة يدل على أن مستوى التخطيط لا يزال ضعيفًا، وأن حلقة الإدراك واتخاذ القرار لم تتصل بعد
شاهد النسخة الأصليةرد0
ExitLiquidityPoet
· منذ 3 س
مدح الكود المفتوح، خفض عتبة إعادة الإنتاج، يمكن للمجتمع أن يتطور معًا
شاهد النسخة الأصليةرد0
RevokingPermissionsOnARainy
· منذ 3 س
بيئة المتصفح أصعب مما تتصور، تغييرات DOM سريعة، والحالة غير واضحة، والعميل قد يشعر بالحيرة بسهولة
شاهد النسخة الأصليةرد0
  • مُثبت