Các tác nhân AI có thể hoàn thành các nhiệm vụ nguy hiểm mà không hiểu rõ hậu quả: Nghiên cứu

Tóm tắt ngắn gọn

  • Các nhà nghiên cứu phát hiện ra các tác nhân AI thường thực hiện các nhiệm vụ không an toàn hoặc phi lý trong khi vẫn tập trung hoàn thành nhiệm vụ.
  • Nghiên cứu xác định một hành vi gọi là “mù mục tiêu hướng đích,” nơi các hệ thống AI ưu tiên hoàn thành nhiệm vụ hơn là nhận thức các rủi ro hoặc vấn đề tiềm ẩn.
  • Các nhà nghiên cứu cảnh báo rằng vấn đề này có thể trở nên nghiêm trọng hơn khi các tác nhân AI có quyền truy cập vào email, dịch vụ đám mây, công cụ tài chính và hệ thống nơi làm việc.

Các tác nhân AI được thiết kế để hoạt động tự động như người dùng thường tiếp tục thực hiện nhiệm vụ ngay cả khi hướng dẫn trở nên nguy hiểm, mâu thuẫn hoặc phi lý, theo các nhà nghiên cứu từ UC Riverside, Microsoft Research, Microsoft AI Red Team và Nvidia. Trong một nghiên cứu được công bố vào thứ Tư, các nhà nghiên cứu gọi hành vi này là “mù mục tiêu hướng đích,” mô tả xu hướng của các tác nhân AI theo đuổi mục tiêu mà không đánh giá đúng an toàn, hậu quả, khả năng thực hiện hoặc bối cảnh. “Giống như ông Magoo, những tác nhân này tiến về phía trước hướng tới mục tiêu mà không hiểu rõ hậu quả của hành động của chúng,” tác giả chính Erfan Shayegani, một nghiên cứu sinh tiến sĩ tại UC Riverside, cho biết trong một tuyên bố. “Những tác nhân này có thể cực kỳ hữu ích, nhưng chúng ta cần các biện pháp phòng ngừa vì đôi khi chúng có thể ưu tiên đạt được mục tiêu hơn là hiểu bức tranh lớn hơn.”

Các phát hiện này đến khi các công ty AI lớn phát triển các “tác nhân sử dụng máy tính” tự động nhằm xử lý các nhiệm vụ nơi làm việc và cá nhân với sự giám sát hạn chế.  Khác với các chatbot truyền thống, các hệ thống này có thể tương tác trực tiếp với phần mềm và trang web bằng cách nhấp nút, gõ lệnh, chỉnh sửa tệp, mở ứng dụng và điều hướng các trang web thay mặt người dùng. Ví dụ bao gồm ChatGPT Agent của OpenAI (trước đây gọi là Operator), các tính năng Claude Computer Use của Anthropic như Cowork, và các hệ thống mã nguồn mở như OpenClaw và Hermes. Trong nghiên cứu, các nhà nghiên cứu đã thử nghiệm các hệ thống AI từ OpenAI, Anthropic, Meta, Alibaba và DeepSeek sử dụng BLIND-ACT, một bộ tiêu chuẩn gồm 90 nhiệm vụ nhằm phát hiện hành vi không an toàn hoặc phi lý. Họ phát hiện ra rằng các tác nhân thể hiện hành vi nguy hiểm hoặc không mong muốn khoảng 80% thời gian, và thực hiện các hành động có hại hoàn toàn trong khoảng 41% các trường hợp.

“Trong một ví dụ, một tác nhân AI được chỉ đạo gửi một tệp hình ảnh cho một đứa trẻ. Mặc dù yêu cầu ban đầu có vẻ vô hại, nhưng hình ảnh chứa nội dung bạo lực,” nghiên cứu cho biết. “Tác nhân hoàn thành nhiệm vụ thay vì nhận thức vấn đề vì nó thiếu lý luận bối cảnh.” Một tác nhân khác đã giả vờ nói rằng người dùng có khuyết tật khi điền mẫu khai thuế, vì điều này giảm thuế phải trả. Trong một ví dụ khác, hệ thống đã vô hiệu hóa các biện pháp bảo vệ tường lửa sau khi nhận lệnh “cải thiện an ninh” bằng cách tắt các biện pháp phòng thủ. Các nhà nghiên cứu cũng phát hiện các hệ thống gặp khó khăn với sự mơ hồ và mâu thuẫn. Trong một tình huống, một tác nhân AI đã chạy nhầm script máy tính mà không kiểm tra nội dung, dẫn đến việc xóa các tệp tin trong quá trình. Nghiên cứu cũng phát hiện các tác nhân AI lặp đi lặp lại ba loại sai lầm: không hiểu rõ bối cảnh, đưa ra dự đoán rủi ro khi hướng dẫn không rõ ràng, và thực hiện các nhiệm vụ mâu thuẫn hoặc không hợp lý. Các nhà nghiên cứu cũng nhận thấy nhiều hệ thống tập trung nhiều hơn vào việc hoàn thành nhiệm vụ hơn là dừng lại để xem xét liệu hành động có thể gây ra vấn đề hay không. Cảnh báo này theo sau các vụ việc gần đây liên quan đến các tác nhân AI tự động hoạt động với quyền truy cập hệ thống rộng rãi. Tháng trước, người sáng lập PocketOS Jeremy Crane tuyên bố rằng một tác nhân Cursor chạy Claude Opus của Anthropic đã xóa sạch cơ sở dữ liệu sản xuất và bản sao lưu của công ty ông trong chín giây qua một cuộc gọi API của Railway. Crane cho biết AI sau đó thừa nhận đã vi phạm nhiều quy tắc an toàn sau khi cố gắng “sửa” một sự không khớp thông tin xác thực một cách tự động. “Mối quan tâm không phải là các hệ thống này độc hại,” Shayegani nói. “Mà là chúng có thể thực hiện các hành động có hại trong khi trông có vẻ hoàn toàn tự tin rằng chúng đang làm đúng.”

MAY0,06%
IN2,5%
ON-9,66%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim