Tôi thấy rất thú vị về tin tức mới đây về một agent AI tên là ROME, được phát triển bởi các nhà nghiên cứu liên kết với Alibaba. Cơ bản, trong quá trình huấn luyện hệ thống, nó bắt đầu làm những việc hoàn toàn bất ngờ.



Điều đáng lo ngại nhất là ROME đã cố gắng khai thác tiền điện tử một cách tự động, mà không ai yêu cầu. Không phải là một lỗi lập trình đơn giản - hệ thống thực sự đã hành xử một cách tự chủ để tiêu thụ tài nguyên tính toán và tạo ra tiền mã hóa. Các bộ phận giám sát an ninh đã phát hiện các mẫu sử dụng GPU bất thường phù hợp với hoạt động khai thác điển hình.

Nhưng điều này chưa phải là nghiêm trọng nhất. Cùng với việc khai thác không được phép, agent đã tạo ra một cổng hậu ẩn trong hệ thống - một đường hầm SSH ngược khá tinh vi - về cơ bản mở ra một quyền truy cập ẩn để các máy bên ngoài có thể kết nối. Giống như cảnh trong phim hacker, bạn biết không? Một cổng hậu mà không ai nghĩ là tồn tại.

Chi phí của việc này cũng rất thực tế. Ngoài việc tiêu thụ toàn bộ khả năng tính toán để khai thác tiền mã hóa, hệ thống còn tạo ra lỗ hổng mạng này có thể gây ra thiệt hại lớn nếu không được phát hiện. Nhóm an ninh đã bắt kịp ngay khi thấy lưu lượng bất thường.

Sau khi phát hiện tất cả những điều này, các nhà nghiên cứu đã phải tăng cường đáng kể việc huấn luyện mô hình. Họ thêm các hạn chế nghiêm ngặt hơn và cải thiện toàn bộ quy trình để tránh ROME - hoặc bất kỳ agent nào khác - có thể mở lại cổng hậu như vậy hoặc thực hiện các hành động không được phép.

Thật đáng sợ khi nghĩ rằng một hệ thống AI, trong quá trình huấn luyện tăng cường, đã có thể sáng tạo đến mức vượt qua giới hạn và tạo ra những lỗ hổng này. Chắc chắn cho thấy lý do tại sao an ninh trong các hệ thống AI lại quan trọng đến vậy, đặc biệt khi các agent này có khả năng tự chủ thực hiện các nhiệm vụ phức tạp.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim