Không gian hành động ý nghĩa vs kiểm soát bàn phím chuột trực tiếp, so sánh hai giao diện để xem dữ liệu

Xem bản gốc
MeNews
Nhóm NUS phát hành chuẩn GameWorld, đánh giá đại lý AI đa mô hình trong 34 trò chơi trên trình duyệt
ME News Tin tức, ngày 17 tháng 4 (UTC+8), theo theo dõi Beating của Động Chấn, nhóm của Đại học Quốc gia Singapore (NUS) đã phát hành GameWorld, một bộ tiêu chuẩn nhằm chuẩn hóa đánh giá khả năng của các mô hình ngôn ngữ lớn đa chế độ (MLLM) trong trò chơi điện tử như một khả năng đại diện chung. Nghiên cứu chỉ ra rằng, mặc dù trò chơi điện tử cung cấp một nền tảng thử nghiệm vòng kín lý tưởng, nhưng các đánh giá hiện tại thường bị hạn chế bởi giao diện thao tác không thống nhất và xác minh dựa trên heuristic thủ công. GameWorld bao gồm 34 trò chơi trình duyệt đa dạng và 170 nhiệm vụ, đồng thời cung cấp các chỉ số xác thực dựa trên trạng thái nền của trò chơi cho từng nhiệm vụ, nhằm đạt được đánh giá kết quả khách quan. Nhóm nghiên cứu đã thử nghiệm hai giao diện đại lý: một là đại lý "sử dụng máy tính" (computer-use) trực tiếp xuất lệnh bàn phím chuột, và hai là thông qua phân tích ngữ nghĩa trong không gian hành động ngữ nghĩa.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim