فريق NUS يصدر معيار GameWorld، ويقيم وكلاء الذكاء الاصطناعي متعدد الأوضاع في 34 لعبة متصفح

robot
إنشاء الملخص قيد التقدم
أخبار ME News، 17 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، أصدر فريق جامعة نانيانغ التكنولوجية الوطنية (NUS) معيارًا يسمى GameWorld، يهدف إلى توحيد تقييم قدرة النماذج اللغوية متعددة الوسائط (MLLM) على العمل كوكلاء عامين في ألعاب الفيديو. وأشار البحث إلى أن ألعاب الفيديو توفر منصة مثالية لاختبار التفاعل المغلق، لكن التقييمات الحالية غالبًا ما تكون مقيدة بعدم توحيد واجهات التشغيل والتحقق اليدوي الاسترشادي. يتضمن GameWorld 34 لعبة متصفح متنوعة و170 مهمة، ويزود كل مهمة بمؤشرات قابلة للتحقق تعتمد على الحالة الأساسية للعبة لتحقيق تقييم موضوعي للنتائج. اختبر فريق البحث واجهتين للوكيل: الأولى هي وكيل "استخدام الكمبيوتر" الذي يصدر أوامر لوحة المفاتيح والفأرة مباشرة، والثانية هي وكيل متعدد الوسائط عام يعمل من خلال التحليل الدلالي في فضاء الأفعال الدلالية. في اختبار واسع النطاق شمل 18 مجموعة من "النموذج-الواجهة"، أظهرت النتائج أن حتى أفضل الوكلاء الذكاء الاصطناعي الحالي لا يقترب من مستوى البشر في قدرات الألعاب. وكشف البحث أيضًا عن التحديات الصعبة التي تواجه وكلاء الألعاب في تأخير التفاعل في الوقت الحقيقي، وحساسية الذاكرة السياقية، وفعالية الأفعال. تم نشر الورقة البحثية والكود الخاص بالمشروع على منصتي Hugging Face وGitHub. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 9
  • 6
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
SeaSaltSparklingWater
· منذ 6 س
المؤشرات القابلة للتحقق هي المفتاح، سابقًا كانت التقييمات الذاتية كثيرة ومتكررة ولم تكن دقيقة
شاهد النسخة الأصليةرد0
PickingUpAirdropsInTheFog
· منذ 6 س
اختيار سيناريو ألعاب المتصفح كان رائعًا، فهو يتضمن تحديات بصرية ودرجة تعقيد في التفاعل، كما أنه لا يتطلب إعداد بيئة.
شاهد النسخة الأصليةرد0
VintageKeychain
· منذ 6 س
HuggingFace و GitHub كلاهما مفتوح المصدر، رائع، انخفاض عتبة إعادة الإنتاج يمكن أن يعزز مشاركة المجتمع
شاهد النسخة الأصليةرد0
LiquidationRaincoat
· منذ 6 س
استخدام الحاسوب مقابل تعددية الأوضاع متعددة الوسائط هذا التصميم المقارن ممتع، أريد أن أرى في أي سيناريوهات فضاء المعنى يكون فيها الأداء أضعف.
شاهد النسخة الأصليةرد0
TidalShellReflection
· منذ 6 س
18 نوعًا من نماذج-واجهات الجمع، أجريت تجارب التآكل بشكل دقيق، أسلوب فريق NUS في العمل يعجبني
شاهد النسخة الأصليةرد0
OwlAuthorizationMonitor
· منذ 6 س
تم تصميم مقياس فاعلية الحركة بشكل جيد، العديد من المعايير لا تهتم إلا بالنتيجة النهائية ولا تراقب مدى أناقة العملية
شاهد النسخة الأصليةرد0
Paper-CutOctopusMarketAnalysis
· منذ 6 س
الأداء الأفضل لا يقترب حتى من الإنسان، يبدو أن وكلاء الألعاب لا يزال أمامهم طريق طويل، وليس مجرد تراكم المعلمات هو الحل.
شاهد النسخة الأصليةرد0
0xLateDinner
· منذ 6 س
حساسية التأخير في الوقت الحقيقي وذاكرة السياق، هذان المشكلتان حقيقيتان جدًا، وكل من جرب ألعاب الوتيرة السريعة يفهم ذلك
شاهد النسخة الأصليةرد0
PixelatedDriedFish
· منذ 6 س
أخيرًا فريق جاد في عمل معيار الوكيل لألعاب المتصفح، 34 لعبة و170 مهمة، مدى التغطية جيد.
شاهد النسخة الأصليةرد0
عرض المزيد
  • مُثبت