Nhóm NUS phát hành chuẩn GameWorld, đánh giá các đại lý AI đa mô hình trong 34 trò chơi trên trình duyệt

robot
Đang tạo bản tóm tắt
Tin tức ME News, ngày 17 tháng 4 (UTC+8), theo theo dõi của 动察 Beating, nhóm của Đại học Quốc gia Singapore (NUS) đã phát hành GameWorld, một bộ tiêu chuẩn nhằm chuẩn hóa đánh giá khả năng của các mô hình ngôn ngữ lớn đa chế độ (MLLM) trong trò chơi điện tử như một khả năng đại diện chung. Nghiên cứu chỉ ra rằng, mặc dù trò chơi điện tử cung cấp một nền tảng thử nghiệm phản hồi vòng kín lý tưởng, nhưng các đánh giá hiện tại thường bị hạn chế bởi giao diện thao tác không thống nhất và xác nhận dựa trên heuristic thủ công. GameWorld bao gồm 34 trò chơi trình duyệt đa dạng và 170 nhiệm vụ, đồng thời cung cấp các chỉ số xác thực dựa trên trạng thái nền của trò chơi cho từng nhiệm vụ, nhằm đạt được đánh giá khách quan về kết quả. Nhóm nghiên cứu đã thử nghiệm hai loại giao diện đại lý: một là đại lý "sử dụng máy tính" (computer-use) trực tiếp xuất lệnh chuột và bàn phím, hai là đại lý đa chế độ chung thao tác trong không gian hành động ngữ nghĩa thông qua phân tích ngữ nghĩa. Trong thử nghiệm quy mô lớn với 18 tổ hợp "mô hình-giao diện", kết quả cho thấy ngay cả các AI đại lý hoạt động tốt nhất hiện nay cũng còn xa mới đạt trình độ con người trong khả năng chơi game. Nghiên cứu còn phơi bày những thách thức nghiêm trọng của đại lý game trong độ trễ phản hồi tương tác thời gian thực, độ nhạy cảm với bộ nhớ ngữ cảnh và tính hiệu quả của hành động. Các bài báo liên quan và mã dự án đã được công khai trên Hugging Face và GitHub. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 5
  • 7
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
FrontrunTherapy
· 3giờ trước
Độ trễ thời gian thực và bộ nhớ ngữ cảnh, hai cái bẫy này, có lẽ sẽ khó khắc phục trong vòng nửa năm tới
Xem bản gốcTrả lời0
GateUser-c4e25c95
· 3giờ trước
Lệnh bàn phím và chuột đó quá bạo lực, đa mô hình chung mới là hướng đi đúng
Xem bản gốcTrả lời0
StakingDaydreamer
· 3giờ trước
Hiệu quả hành động thấp cho thấy tầng lập kế hoạch vẫn yếu, chuỗi cảm nhận-quyết định chưa được kết nối.
Xem bản gốcTrả lời0
ExitLiquidityPoet
· 3giờ trước
Đánh giá tích cực về mã nguồn mở, rào cản để tái tạo giảm xuống, cộng đồng có thể cùng nhau cập nhật và phát triển
Xem bản gốcTrả lời0
RevokingPermissionsOnARainy
· 3giờ trước
Môi trường trình duyệt khó hơn tưởng tượng, DOM thay đổi nhanh, trạng thái ngấm ngầm, agent dễ bị hoang mang
Xem bản gốcTrả lời0
  • Đã ghim