Nghiên cứu của DeepMind tiết lộ sáu cách hacker có thể thao túng các tác nhân AI

Tóm tắt nhanh

  • DeepMind của Google phát hiện sáu “bẫy” mà tác nhân AI có thể mắc phải, làm lộ rủi ro thao túng qua web
  • Các chỉ dẫn HTML ẩn có thể âm thầm chiếm quyền điều khiển các tác vụ của tác nhân AI trên mạng
  • Thủ thuật ngôn ngữ thuyết phục khiến tác nhân AI thực hiện các nhiệm vụ gây hại
  • Nguồn dữ liệu bị đầu độc có thể làm sai lệch trí nhớ và đầu ra của tác nhân AI
  • Rủi ro đối với các tác nhân AI tự chủ đang gia tăng trên các hệ thống được kết nối

Các nhà nghiên cứu tại Google DeepMind đã xác định sáu phương pháp tấn công có thể thao túng các tác nhân AI trực tuyến. Nghiên cứu cho thấy cách các tác nhân AI có thể bị ảnh hưởng thông qua nội dung web, các chỉ dẫn ẩn và các nguồn dữ liệu bị đầu độc. Do đó, các phát hiện nhấn mạnh rủi ro ngày càng tăng khi các công ty triển khai tác nhân AI cho các nhiệm vụ ngoài đời thực trong các môi trường số.

Tiêm nội dung và thao túng ngữ nghĩa bộc lộ điểm yếu cốt lõi

Các nhà nghiên cứu đã xác định các bẫy tiêm nội dung là mối đe dọa trực tiếp đối với các tác nhân AI trong quá trình tương tác với web. Các chỉ dẫn ẩn được đặt trong HTML hoặc siêu dữ liệu có thể điều khiển hành động mà không bị con người phát hiện. Kết quả là, các tác nhân AI có thể thực thi các lệnh được nhúng trong các phần tử trang không thể nhìn thấy.

Thao túng ngữ nghĩa dựa vào ngôn ngữ mang tính thuyết phục thay vì mã ẩn để tác động lên các tác nhân AI. Kẻ tấn công thiết kế các trang với giọng điệu mang tính thẩm quyền và các câu chuyện được cấu trúc để vượt qua các cơ chế bảo vệ. Các tác nhân AI có thể diễn giải các chỉ dẫn gây hại như thể đó là các nhiệm vụ hợp lệ.

Những phương pháp này khai thác cách các tác nhân AI xử lý và ưu tiên thông tin trực tuyến trong quá trình ra quyết định. Nghiên cứu cho thấy các lời nhắc được cấu trúc có thể định hình lại các lộ trình suy luận theo những cách tinh vi. Kẻ tấn công có thể hướng dẫn các tác nhân AI thực hiện các hành động ngoài ý muốn mà không kích hoạt các biện pháp phòng vệ của hệ thống.

Các cuộc tấn công vào trí nhớ và hành vi mở rộng bề mặt rủi ro

Các nhà nghiên cứu cũng phát hiện rằng kẻ tấn công có thể thao túng các hệ thống trí nhớ được các tác nhân AI sử dụng để truy xuất thông tin. Bằng cách chèn dữ liệu sai vào các nguồn được tin cậy, kẻ tấn công ảnh hưởng đến các đầu ra và phản hồi dài hạn. Kết quả là, các tác nhân AI có thể coi thông tin bịa đặt là tri thức đã được xác minh theo thời gian.

Các cuộc tấn công kiểm soát hành vi nhắm trực tiếp vào các hành động mà tác nhân AI thực hiện trong quá trình duyệt web thường nhật. Các chỉ dẫn jailbreak nhúng có thể ghi đè các hạn chế và kích hoạt các thao tác không mong muốn. Các tác nhân AI có quyền hạn rộng có thể truy cập và gửi dữ liệu nhạy cảm ra bên ngoài.

Nghiên cứu nhấn mạnh rằng các rủi ro này tăng lên khi các tác nhân AI có thêm mức độ tự chủ và quyền truy cập vào hệ thống. Kẻ tấn công có thể khai thác các quy trình làm việc thường nhật để chèn các lệnh độc hại vào các tác vụ thông thường. Các tác nhân AI đối mặt với mức độ phơi nhiễm cao hơn khi được tích hợp với các công cụ và API bên ngoài.



Các yếu tố hệ thống và con người khuếch đại tác động của mối đe dọa

Các nhà nghiên cứu cảnh báo rằng các bẫy mang tính hệ thống có thể ảnh hưởng đồng thời đến nhiều tác nhân AI trên nhiều hệ thống được kết nối. Việc thao túng có phối hợp có thể gây ra các chuỗi lỗi lan rộng tương tự như các sự gián đoạn thị trường do thuật toán điều khiển. Do đó, các tác nhân AI hoạt động trong môi trường dùng chung có thể khuếch đại rủi ro trên quy mô lớn.

Các nhà rà soát con người vẫn dễ bị tổn thương trong quy trình làm việc và cơ chế phê duyệt của các tác nhân AI. Kẻ tấn công có thể tạo ra các đầu ra trông có vẻ đáng tin và vượt qua các bước kiểm tra giám sát. Các tác nhân AI có thể thực hiện các hành động gây hại sau khi nhận được sự phê duyệt từ con người.

Nghiên cứu đặt các phát hiện này trong bối cảnh rộng hơn của việc triển khai AI ngày càng tăng trên nhiều ngành. Các tác nhân AI hiện xử lý các tác vụ như liên lạc, mua sắm và điều phối thông qua các hệ thống tự động. Việc bảo đảm môi trường vận hành trở nên quan trọng tương đương với việc cải thiện thiết kế mô hình.

Các nhà nghiên cứu khuyến nghị huấn luyện đối kháng, lọc đầu vào và các hệ thống giám sát để giảm mức độ phơi nhiễm. Nghiên cứu cho biết các biện pháp phòng vệ vẫn bị phân mảnh và thiếu các chuẩn mực áp dụng trên toàn ngành. Khi các tác nhân AI tiếp tục mở rộng vai trò, nhu cầu về các biện pháp bảo vệ được phối hợp ngày càng trở nên cấp thiết.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$2.21KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.26KNgười nắm giữ:2
    0.15%
  • Vốn hóa:$2.23KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.23KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$2.23KNgười nắm giữ:1
    0.00%
  • Ghim