Tin tức từ CoinWorld, Công ty Odyssey đã tích hợp học tăng cường (RLHF) vào quá trình huấn luyện mô hình thị giác, phát hành khung công tác prowl, lần đầu tiên đưa RL vào vòng lặp huấn luyện của mô hình thế giới. Khung công tác này bằng cách cử đại lý RL khám phá trong môi trường trò chơi, tìm ra các trường hợp thất bại của mô hình về hình học, chuyển động, tính nhất quán thị giác và phản hồi hành động, và đóng gói các lỗi này thành dữ liệu huấn luyện để cung cấp lại cho mô hình. prowl thiết kế bộ đệm đường dẫn đối kháng ưu tiên (PAT), khi mô hình sửa chữa các lỗi đơn giản, PAT sẽ tự động đẩy các trường hợp thất bại khó hơn. Nhóm đã xác nhận prowl trong môi trường Minerl của Minecraft, kết quả định lượng cho thấy, so với mô hình tiền huấn luyện, prowl giảm lỗi theo dõi hành động xuống 12,6%, và mức giảm trên các đoạn khó nhất 10% mở rộng đến 20,9%.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim