Đội ngũ NUS đã phát hành chuẩn GameWorld, bao gồm 34 trò chơi trình duyệt và 170 nhiệm vụ, đi kèm các chỉ số có thể xác minh để đánh giá khách quan. Kiểm tra hai loại giao diện đại lý: giao diện sử dụng bàn phím-máy tính trực tiếp và đại lý đa phương thức chung thao tác trong không gian ngữ nghĩa. Thực nghiệm trên 18 tổ hợp mô hình-giao diện cho thấy, ngay cả những người xuất sắc nhất cũng còn xa mới bằng con người, và còn gặp phải các thách thức về độ trễ thời gian thực, độ nhạy cảm với bộ nhớ ngữ cảnh và hiệu quả hành động. Các bài báo liên quan và mã nguồn đã được công khai trên HuggingFace và GitHub.

MeNews

2026-05-21 11:56:03

Đang tạo bản tóm tắt

ME News Tin tức, ngày 17 tháng 4 (UTC+8), theo theo dõi của Động sát Beating, nhóm của Đại học Quốc gia Singapore (NUS) đã phát hành GameWorld, một bộ tiêu chuẩn nhằm chuẩn hóa đánh giá khả năng của các mô hình ngôn ngữ lớn đa chế độ (MLLM) trong trò chơi điện tử như một khả năng đại diện chung. Nghiên cứu chỉ ra rằng, mặc dù trò chơi điện tử cung cấp một nền tảng thử nghiệm phản hồi vòng kín lý tưởng, nhưng các đánh giá hiện tại thường bị hạn chế bởi giao diện thao tác không thống nhất và xác minh dựa trên heuristic thủ công. GameWorld bao gồm 34 trò chơi trình duyệt đa dạng và 170 nhiệm vụ, đồng thời cung cấp các chỉ số xác thực dựa trên trạng thái nền của trò chơi cho từng nhiệm vụ, nhằm đạt được đánh giá khách quan kết quả. Nhóm nghiên cứu đã thử nghiệm hai giao diện đại lý: một là đại lý "sử dụng máy tính" (computer-use) trực tiếp xuất lệnh bàn phím chuột, và hai là đại lý đa chế độ chung thao tác trong không gian hành động ngữ nghĩa thông qua phân tích ngữ nghĩa. Trong thử nghiệm quy mô lớn với 18 tổ hợp "mô hình-giao diện", kết quả cho thấy ngay cả AI đại lý hoạt động tốt nhất hiện nay cũng còn xa mới đạt trình độ con người trong khả năng chơi game. Nghiên cứu còn phơi bày những thách thức nghiêm trọng của đại lý game trong độ trễ phản hồi tương tác thời gian thực, độ nhạy cảm với bộ nhớ ngữ cảnh và tính hiệu quả của hành động. Bài báo liên quan và mã dự án đã được công khai trên Hugging Face và GitHub. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

10 thích

Phần thưởng
10
9
6
Retweed

Bình luận

Thêm một bình luận

SeaSaltSparklingWater

· 8giờ trước

Chỉ số có thể xác minh là then chốt, trước đây quá nhiều đánh giá chủ quan tranh cãi mãi không chính xác

Xem bản gốcTrả lời0

PickingUpAirdropsInTheFog

· 8giờ trước

Trò chơi trình duyệt trong cảnh này chọn rất hay, vừa có thử thách về thị giác vừa có độ phức tạp trong tương tác, lại không cần phải chỉnh sửa cấu hình môi trường

Xem bản gốcTrả lời0

VintageKeychain

· 8giờ trước

HuggingFace và GitHub đều đã mở mã nguồn, tuyệt vời, giảm thiểu rào cản tái tạo để thúc đẩy cộng đồng tham gia

Xem bản gốcTrả lời0

LiquidationRaincoat

· 9giờ trước

computer-use vs 通用多模态这个对比设计挺有意思，想看看具体哪些场景语义空间反而吃亏

Trả lời0

TidalShellReflection

· 9giờ trước

18 loại mô hình-kết hợp giao diện, thí nghiệm loại bỏ đã làm rất kỹ, phong cách làm việc của nhóm NUS tôi thích

Xem bản gốcTrả lời0

OwlAuthorizationMonitor

· 9giờ trước

Chỉ số hiệu quả hành động này được thiết kế tốt, nhiều bộ chuẩn đánh giá chỉ quan tâm đến điểm số cuối cùng mà không để ý đến quá trình có thanh lịch hay không

Xem bản gốcTrả lời0

Paper-CutOctopusMarketAnalysis

· 9giờ trước

Hiển thị tốt nhất cũng còn xa mới sánh bằng con người, có vẻ như các tác nhân chơi game còn rất nhiều chặng đường phía trước, không phải chỉ dựa vào việc tăng tham số là có thể giải quyết được.

Xem bản gốcTrả lời0

0xLateDinner

· 9giờ trước

Độ trễ thời gian thực và độ nhạy cảm với bộ nhớ ngữ cảnh, hai điểm đau này quá chân thực, ai đã chơi game tốc độ cao đều hiểu

Xem bản gốcTrả lời0

PixelatedDriedFish

· 9giờ trước

Cuối cùng đã có một đội ngũ nghiêm túc xây dựng bộ thử nghiệm agent cho trò chơi trình duyệt, 34 trò chơi với 170 nhiệm vụ, mức độ bao phủ này có thể.

Xem bản gốcTrả lời0

Xem thêm

Chủ đề thịnh hành
Xem thêm
#
TradfiTradingChallenge
234.98K Phổ biến
#
GrayscaleBuysAndStakesOver510KHYPE
8.91M Phổ biến
#
IsraelStrikesIranBTCPlunges
48.48K Phổ biến
#
#DailyPolymarketHotspot
1.01M Phổ biến
#
SpaceXOfficiallyFilesforIPO
751.6K Phổ biến

Đã ghim

sơ đồ trang web

Nhóm NUS phát hành chuẩn GameWorld, đánh giá đại lý AI đa mô hình trong 34 trò chơi trên trình duyệt

Chủ đề thịnh hành

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Đã ghim