Nhìn kết quả, mô hình tốt nhất còn kém xa con người một đoạn dài, đã bình tĩnh lại rồi

Xem bản gốc
MeNews
Nhóm NUS phát hành chuẩn GameWorld, đánh giá các đại lý AI đa mô hình trong 34 trò chơi trên trình duyệt
Nhóm NUS đã phát hành chuẩn GameWorld, bao gồm 34 trò chơi trình duyệt và 170 nhiệm vụ, đi kèm với các chỉ số xác thực để đánh giá khách quan. Kiểm tra hai loại giao diện đại lý: giao diện sử dụng bàn phím-máy tính trực tiếp và đại lý đa phương thức chung thao tác trong không gian ngữ nghĩa. Thực nghiệm trên 18 tổ hợp mô hình-giao diện cho thấy, ngay cả những người xuất sắc nhất cũng còn xa mới đạt được trình độ con người, và còn gặp phải các thách thức về độ trễ thời gian thực, độ nhạy cảm với bộ nhớ ngữ cảnh và hiệu quả hành động. Các bài báo liên quan và mã nguồn đã được công khai trên HuggingFace và GitHub.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim