فريق NUS أصدر معيار GameWorld، والذي يتضمن 34 لعبة متصفح و170 مهمة، مع مؤشرات قابلة للتحقق لتحقيق تقييم موضوعي. اختبار نوعين من واجهات الوكيل: واجهة استخدام الكمبيوتر المباشرة لأوامر لوحة المفاتيح والفأرة، ووكيل متعدد الوسائط العام الذي يعمل في الفضاء الدلالي. أظهرت التجارب على 18 مجموعة من النماذج-الواجهات أن حتى الأفضل أداءً لا يقترب من أداء البشر، وهناك تحديات تتعلق بالكمون في الوقت الحقيقي، وحساسية ذاكرة السياق، وفعالية الحركات. الورقة البحثية ذات الصلة والكود متاحان على HuggingFace وGitHub.

MeNews

2026-05-21 11:56:03

إنشاء الملخص قيد التقدم

أخبار ME News، 17 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 动察 Beating، أصدر فريق جامعة نانيانغ التكنولوجية الوطنية (NUS) معيارًا يسمى GameWorld، يهدف إلى توحيد تقييم قدرة النماذج اللغوية متعددة الوسائط (MLLM) على العمل كوكلاء عامين في ألعاب الفيديو. وأشار البحث إلى أن ألعاب الفيديو توفر منصة مثالية لاختبار التفاعل المغلق، لكن التقييمات الحالية غالبًا ما تكون مقيدة بعدم توحيد واجهات التشغيل والتحقق اليدوي الاسترشادي. يتضمن GameWorld 34 لعبة متصفح متنوعة و170 مهمة، ويزود كل مهمة بمؤشرات قابلة للتحقق تعتمد على الحالة الأساسية للعبة لتحقيق تقييم موضوعي للنتائج. اختبر فريق البحث واجهتين للوكيل: الأولى هي وكيل "استخدام الكمبيوتر" الذي يصدر أوامر لوحة المفاتيح والفأرة مباشرة، والثانية هي وكيل متعدد الوسائط عام يعمل من خلال التحليل الدلالي في فضاء الأفعال الدلالية. في اختبار واسع النطاق شمل 18 مجموعة من "النموذج-الواجهة"، أظهرت النتائج أن حتى أفضل الوكلاء الذكاء الاصطناعي الحالي لا يقترب من مستوى البشر في قدرات الألعاب. وكشف البحث أيضًا عن التحديات الصعبة التي تواجه وكلاء الألعاب في تأخير التفاعل في الوقت الحقيقي، وحساسية الذاكرة السياقية، وفعالية الأفعال. تم نشر الورقة البحثية والكود الخاص بالمشروع على منصتي Hugging Face وGitHub. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 10

أعجبني
10
9
6
مشاركة

تعليق

إضافة تعليق

SeaSaltSparklingWater

· منذ 6 س

المؤشرات القابلة للتحقق هي المفتاح، سابقًا كانت التقييمات الذاتية كثيرة ومتكررة ولم تكن دقيقة

شاهد النسخة الأصليةرد0

PickingUpAirdropsInTheFog

· منذ 6 س

اختيار سيناريو ألعاب المتصفح كان رائعًا، فهو يتضمن تحديات بصرية ودرجة تعقيد في التفاعل، كما أنه لا يتطلب إعداد بيئة.

شاهد النسخة الأصليةرد0

VintageKeychain

· منذ 6 س

HuggingFace و GitHub كلاهما مفتوح المصدر، رائع، انخفاض عتبة إعادة الإنتاج يمكن أن يعزز مشاركة المجتمع

شاهد النسخة الأصليةرد0

LiquidationRaincoat

· منذ 6 س

استخدام الحاسوب مقابل تعددية الأوضاع متعددة الوسائط هذا التصميم المقارن ممتع، أريد أن أرى في أي سيناريوهات فضاء المعنى يكون فيها الأداء أضعف.

شاهد النسخة الأصليةرد0

TidalShellReflection

· منذ 6 س

18 نوعًا من نماذج-واجهات الجمع، أجريت تجارب التآكل بشكل دقيق، أسلوب فريق NUS في العمل يعجبني

شاهد النسخة الأصليةرد0

OwlAuthorizationMonitor

· منذ 6 س

تم تصميم مقياس فاعلية الحركة بشكل جيد، العديد من المعايير لا تهتم إلا بالنتيجة النهائية ولا تراقب مدى أناقة العملية

شاهد النسخة الأصليةرد0

Paper-CutOctopusMarketAnalysis

· منذ 6 س

الأداء الأفضل لا يقترب حتى من الإنسان، يبدو أن وكلاء الألعاب لا يزال أمامهم طريق طويل، وليس مجرد تراكم المعلمات هو الحل.

شاهد النسخة الأصليةرد0

0xLateDinner

· منذ 6 س

حساسية التأخير في الوقت الحقيقي وذاكرة السياق، هذان المشكلتان حقيقيتان جدًا، وكل من جرب ألعاب الوتيرة السريعة يفهم ذلك

شاهد النسخة الأصليةرد0

PixelatedDriedFish

· منذ 6 س

أخيرًا فريق جاد في عمل معيار الوكيل لألعاب المتصفح، 34 لعبة و170 مهمة، مدى التغطية جيد.

شاهد النسخة الأصليةرد0

عرض المزيد

المواضيع الرائجة
عرض المزيد
#
TradfiTradingChallenge
233.5K درجة الشعبية
#
GrayscaleBuysAndStakesOver510KHYPE
8.91M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
48.48K درجة الشعبية
#
#DailyPolymarketHotspot
1.02M درجة الشعبية
#
SpaceXOfficiallyFilesforIPO
749.68K درجة الشعبية

مُثبت

خريطة الموقع

فريق NUS يصدر معيار GameWorld، ويقيم وكلاء الذكاء الاصطناعي متعدد الأوضاع في 34 لعبة متصفح

المواضيع الرائجة

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

مُثبت