Nhóm NUS phát hành chuẩn GameWorld, đánh giá đại lý AI đa mô hình trong 34 trò chơi trên trình duyệt

robot
Đang tạo bản tóm tắt
ME News Tin tức, ngày 17 tháng 4 (UTC+8), theo theo dõi của Động sát Beating, nhóm của Đại học Quốc gia Singapore (NUS) đã phát hành GameWorld, một bộ tiêu chuẩn nhằm chuẩn hóa đánh giá khả năng của các mô hình ngôn ngữ lớn đa chế độ (MLLM) trong trò chơi điện tử như một khả năng đại diện chung. Nghiên cứu chỉ ra rằng, mặc dù trò chơi điện tử cung cấp một nền tảng thử nghiệm phản hồi vòng kín lý tưởng, nhưng các đánh giá hiện tại thường bị hạn chế bởi giao diện thao tác không thống nhất và xác minh dựa trên heuristic thủ công. GameWorld bao gồm 34 trò chơi trình duyệt đa dạng và 170 nhiệm vụ, đồng thời cung cấp các chỉ số xác thực dựa trên trạng thái nền của trò chơi cho từng nhiệm vụ, nhằm đạt được đánh giá khách quan kết quả. Nhóm nghiên cứu đã thử nghiệm hai giao diện đại lý: một là đại lý "sử dụng máy tính" (computer-use) trực tiếp xuất lệnh bàn phím chuột, và hai là đại lý đa chế độ chung thao tác trong không gian hành động ngữ nghĩa thông qua phân tích ngữ nghĩa. Trong thử nghiệm quy mô lớn với 18 tổ hợp "mô hình-giao diện", kết quả cho thấy ngay cả AI đại lý hoạt động tốt nhất hiện nay cũng còn xa mới đạt trình độ con người trong khả năng chơi game. Nghiên cứu còn phơi bày những thách thức nghiêm trọng của đại lý game trong độ trễ phản hồi tương tác thời gian thực, độ nhạy cảm với bộ nhớ ngữ cảnh và tính hiệu quả của hành động. Bài báo liên quan và mã dự án đã được công khai trên Hugging Face và GitHub. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 9
  • 6
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
SeaSaltSparklingWater
· 8giờ trước
Chỉ số có thể xác minh là then chốt, trước đây quá nhiều đánh giá chủ quan tranh cãi mãi không chính xác
Xem bản gốcTrả lời0
PickingUpAirdropsInTheFog
· 8giờ trước
Trò chơi trình duyệt trong cảnh này chọn rất hay, vừa có thử thách về thị giác vừa có độ phức tạp trong tương tác, lại không cần phải chỉnh sửa cấu hình môi trường
Xem bản gốcTrả lời0
VintageKeychain
· 8giờ trước
HuggingFace và GitHub đều đã mở mã nguồn, tuyệt vời, giảm thiểu rào cản tái tạo để thúc đẩy cộng đồng tham gia
Xem bản gốcTrả lời0
LiquidationRaincoat
· 9giờ trước
computer-use vs 通用多模态这个对比设计挺有意思,想看看具体哪些场景语义空间反而吃亏
Trả lời0
TidalShellReflection
· 9giờ trước
18 loại mô hình-kết hợp giao diện, thí nghiệm loại bỏ đã làm rất kỹ, phong cách làm việc của nhóm NUS tôi thích
Xem bản gốcTrả lời0
OwlAuthorizationMonitor
· 9giờ trước
Chỉ số hiệu quả hành động này được thiết kế tốt, nhiều bộ chuẩn đánh giá chỉ quan tâm đến điểm số cuối cùng mà không để ý đến quá trình có thanh lịch hay không
Xem bản gốcTrả lời0
Paper-CutOctopusMarketAnalysis
· 9giờ trước
Hiển thị tốt nhất cũng còn xa mới sánh bằng con người, có vẻ như các tác nhân chơi game còn rất nhiều chặng đường phía trước, không phải chỉ dựa vào việc tăng tham số là có thể giải quyết được.
Xem bản gốcTrả lời0
0xLateDinner
· 9giờ trước
Độ trễ thời gian thực và độ nhạy cảm với bộ nhớ ngữ cảnh, hai điểm đau này quá chân thực, ai đã chơi game tốc độ cao đều hiểu
Xem bản gốcTrả lời0
PixelatedDriedFish
· 9giờ trước
Cuối cùng đã có một đội ngũ nghiêm túc xây dựng bộ thử nghiệm agent cho trò chơi trình duyệt, 34 trò chơi với 170 nhiệm vụ, mức độ bao phủ này có thể.
Xem bản gốcTrả lời0
Xem thêm
  • Đã ghim