Nhóm NUS đã phát hành chuẩn GameWorld, bao gồm 34 trò chơi trình duyệt và 170 nhiệm vụ, đi kèm với các chỉ số xác thực để đánh giá khách quan. Kiểm tra hai loại giao diện đại lý: giao diện sử dụng bàn phím-máy tính trực tiếp và đại lý đa phương thức chung thao tác trong không gian ngữ nghĩa. Thực nghiệm trên 18 tổ hợp mô hình-giao diện cho thấy, ngay cả những người xuất sắc nhất cũng còn xa mới bằng con người, và còn gặp phải các thách thức về độ trễ thời gian thực, độ nhạy cảm với bộ nhớ ngữ cảnh và hiệu quả hành động. Các bài báo liên quan và mã nguồn đã được công khai trên HuggingFace và GitHub.

MeNews

2026-05-21 19:59:48

Đang tạo bản tóm tắt

Tin tức ME News, ngày 17 tháng 4 (UTC+8), theo theo dõi của 动察 Beating, nhóm của Đại học Quốc gia Singapore (NUS) đã phát hành GameWorld, một bộ tiêu chuẩn nhằm chuẩn hóa đánh giá khả năng của các mô hình ngôn ngữ lớn đa chế độ (MLLM) trong trò chơi điện tử như một khả năng đại diện chung. Nghiên cứu chỉ ra rằng, mặc dù trò chơi điện tử cung cấp một nền tảng thử nghiệm phản hồi vòng kín lý tưởng, nhưng các đánh giá hiện tại thường bị hạn chế bởi giao diện thao tác không thống nhất và xác nhận dựa trên heuristic thủ công. GameWorld bao gồm 34 trò chơi trình duyệt đa dạng và 170 nhiệm vụ, đồng thời cung cấp các chỉ số xác thực dựa trên trạng thái nền của trò chơi cho từng nhiệm vụ, nhằm đạt được đánh giá khách quan về kết quả. Nhóm nghiên cứu đã thử nghiệm hai loại giao diện đại lý: một là đại lý "sử dụng máy tính" (computer-use) trực tiếp xuất lệnh chuột và bàn phím, hai là đại lý đa chế độ chung thao tác trong không gian hành động ngữ nghĩa thông qua phân tích ngữ nghĩa. Trong thử nghiệm quy mô lớn với 18 tổ hợp "mô hình-giao diện", kết quả cho thấy ngay cả các AI đại lý hoạt động tốt nhất hiện nay cũng còn xa mới đạt trình độ con người trong khả năng chơi game. Nghiên cứu còn phơi bày những thách thức nghiêm trọng của đại lý game trong độ trễ phản hồi tương tác thời gian thực, độ nhạy cảm với bộ nhớ ngữ cảnh và tính hiệu quả của hành động. Các bài báo liên quan và mã dự án đã được công khai trên Hugging Face và GitHub. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

13 thích

Phần thưởng
13
5
7
Retweed

Bình luận

Thêm một bình luận

FrontrunTherapy

· 3giờ trước

Độ trễ thời gian thực và bộ nhớ ngữ cảnh, hai cái bẫy này, có lẽ sẽ khó khắc phục trong vòng nửa năm tới

Xem bản gốcTrả lời0

GateUser-c4e25c95

· 3giờ trước

Lệnh bàn phím và chuột đó quá bạo lực, đa mô hình chung mới là hướng đi đúng

Xem bản gốcTrả lời0

StakingDaydreamer

· 3giờ trước

Hiệu quả hành động thấp cho thấy tầng lập kế hoạch vẫn yếu, chuỗi cảm nhận-quyết định chưa được kết nối.

Xem bản gốcTrả lời0

ExitLiquidityPoet

· 3giờ trước

Đánh giá tích cực về mã nguồn mở, rào cản để tái tạo giảm xuống, cộng đồng có thể cùng nhau cập nhật và phát triển

Xem bản gốcTrả lời0

RevokingPermissionsOnARainy

· 3giờ trước

Môi trường trình duyệt khó hơn tưởng tượng, DOM thay đổi nhanh, trạng thái ngấm ngầm, agent dễ bị hoang mang

Xem bản gốcTrả lời0

Chủ đề thịnh hành
Xem thêm
#
TradfiTradingChallenge
236.28K Phổ biến
#
GrayscaleBuysAndStakesOver510KHYPE
8.92M Phổ biến
#
IsraelStrikesIranBTCPlunges
48.54K Phổ biến
#
#DailyPolymarketHotspot
1.01M Phổ biến
#
SpaceXOfficiallyFilesforIPO
751.82K Phổ biến

Đã ghim

sơ đồ trang web

Nhóm NUS phát hành chuẩn GameWorld, đánh giá các đại lý AI đa mô hình trong 34 trò chơi trên trình duyệt

Chủ đề thịnh hành

TradfiTradingChallenge

GrayscaleBuysAndStakesOver510KHYPE

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

SpaceXOfficiallyFilesforIPO

Đã ghim