Nghiên cứu của DeepMind tiết lộ sáu cách hacker có thể thao túng các tác nhân AI

TLDR

  • DeepMind xác định sáu “bẫy” tác nhân AI nhằm lộ các rủi ro thao túng thông qua nền tảng web
  • Các hướng dẫn HTML ẩn có thể âm thầm chiếm quyền hành động của tác nhân AI trên mạng
  • Thủ thuật ngôn ngữ thuyết phục khiến tác nhân AI thực hiện các tác vụ gây hại
  • Các nguồn dữ liệu bị đầu độc có thể làm sai lệch bộ nhớ và đầu ra của tác nhân AI
  • Các tác nhân AI tự chủ phải đối mặt với rủi ro gia tăng trên các hệ thống được kết nối

Các nhà nghiên cứu tại Google DeepMind đã xác định sáu phương pháp tấn công có thể thao túng các tác nhân AI trực tuyến. Nghiên cứu cho thấy cách các tác nhân AI có thể bị chi phối thông qua nội dung web, các hướng dẫn ẩn và các nguồn dữ liệu bị đầu độc. Do đó, các phát hiện nhấn mạnh rủi ro ngày càng tăng khi các công ty triển khai tác nhân AI cho các nhiệm vụ ngoài đời thực trên các môi trường số.

Nội dung và thao túng ngữ nghĩa phơi bày các điểm yếu cốt lõi

Các nhà nghiên cứu xác định các bẫy “tiêm nội dung” là mối đe dọa trực tiếp đối với các tác nhân AI trong các tương tác trên web. Những hướng dẫn ẩn được đặt trong HTML hoặc siêu dữ liệu có thể điều khiển hành động mà không bị con người phát hiện. Kết quả là, các tác nhân AI có thể thực thi các lệnh được nhúng trong các phần tử vô hình của trang.

Thao túng ngữ nghĩa dựa vào ngôn ngữ thuyết phục thay vì mã ẩn để ảnh hưởng đến các tác nhân AI. Kẻ tấn công thiết kế các trang với giọng điệu mang tính “thẩm quyền” và các câu chuyện được cấu trúc để vượt qua các biện pháp bảo vệ. Các tác nhân AI có thể diễn giải các hướng dẫn gây hại là các tác vụ hợp lệ.

Những phương pháp này khai thác cách các tác nhân AI xử lý và ưu tiên thông tin trực tuyến khi ra quyết định. Nghiên cứu cho thấy các lời nhắc được cấu trúc có thể làm thay đổi lộ trình suy luận theo những cách tinh vi. Kẻ tấn công có thể dẫn dắt các tác nhân AI thực hiện các hành động ngoài ý muốn mà không kích hoạt hệ thống phòng vệ.

Các tấn công bộ nhớ và hành vi mở rộng bề mặt rủi ro

Các nhà nghiên cứu cũng phát hiện rằng kẻ tấn công có thể thao túng các hệ thống bộ nhớ mà các tác nhân AI dùng để truy xuất thông tin. Bằng cách chèn dữ liệu sai vào các nguồn đáng tin cậy, kẻ tấn công ảnh hưởng đến các đầu ra và phản hồi dài hạn. Kết quả là, các tác nhân AI có thể coi thông tin được bịa đặt là kiến thức đã được xác minh theo thời gian.

Các tấn công kiểm soát hành vi nhắm trực tiếp vào các hành động mà tác nhân AI thực hiện trong quá trình duyệt web thường nhật. Các lệnh “jailbreak” được nhúng có thể ghi đè các hạn chế và kích hoạt các thao tác không mong muốn. Các tác nhân AI có quyền truy cập rộng có thể truy cập và truyền dữ liệu nhạy cảm ra bên ngoài.

Nghiên cứu nêu bật rằng các rủi ro này tăng lên khi các tác nhân AI có mức độ tự chủ và khả năng truy cập hệ thống lớn hơn. Kẻ tấn công có thể khai thác các quy trình làm việc thường ngày để chèn các lệnh độc hại vào các tác vụ thông thường. Các tác nhân AI sẽ bị phơi bày nhiều hơn khi được tích hợp với các công cụ và API bên ngoài.



Các yếu tố mang tính hệ thống và con người khuếch đại mức độ tác động của mối đe dọa

Các nhà nghiên cứu cảnh báo rằng các bẫy mang tính hệ thống có thể ảnh hưởng đồng thời đến nhiều tác nhân AI trên nhiều hệ thống được kết nối. Việc thao túng phối hợp có thể kích hoạt các chuỗi thất bại lan tỏa tương tự như các gián đoạn thị trường do thuật toán gây ra. Kết quả là, các tác nhân AI hoạt động trong môi trường dùng chung có thể khuếch đại rủi ro ở quy mô lớn.

Các người rà soát con người vẫn dễ bị tổn thương trong quy trình làm việc và các bước phê duyệt của tác nhân AI. Kẻ tấn công có thể tạo ra các đầu ra trông có vẻ đáng tin cậy và vượt qua các kiểm tra giám sát. Các tác nhân AI có thể thực hiện các hành động gây hại sau khi nhận được sự phê duyệt của con người.

Nghiên cứu đặt các phát hiện này vào bối cảnh rộng hơn của việc triển khai AI ngày càng tăng trên nhiều ngành. Các tác nhân AI hiện xử lý các tác vụ như liên lạc, mua sắm và phối hợp thông qua các hệ thống tự động. Việc bảo đảm môi trường vận hành trở nên quan trọng tương đương với việc cải thiện thiết kế mô hình.

Các nhà nghiên cứu khuyến nghị huấn luyện đối kháng, lọc đầu vào và các hệ thống giám sát để giảm mức phơi bày. Nghiên cứu cho biết các biện pháp phòng thủ vẫn bị phân mảnh và thiếu các tiêu chuẩn trên toàn ngành. Khi các tác nhân AI tiếp tục mở rộng vai trò, nhu cầu về các biện pháp bảo vệ được phối hợp trở nên cấp thiết hơn.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim