DeepMind cảnh báo sáu cuộc tấn công dựa trên web có thể chiếm quyền kiểm soát các tác nhân AI

2026-04-03 08:44:43

Các nhà nghiên cứu tại Google DeepMind đã cảnh báo rằng internet công khai có thể được dùng để thao túng các tác nhân AI tự trị và chiếm quyền hành động của chúng.

Tóm tắt

Các nhà nghiên cứu DeepMind đã xác định sáu phương pháp tấn công có thể được sử dụng để thao túng các tác nhân AI tự trị khi chúng duyệt và thực hiện hành động trực tuyến.
Nghiên cứu cảnh báo rằng các chỉ dẫn ẩn, ngôn ngữ mang tính thuyết phục và các nguồn dữ liệu bị đầu độc có thể ảnh hưởng đến các quyết định của tác nhân hoặc ghi đè các biện pháp bảo vệ.

Nghiên cứu có tựa đề “AI Agent Traps” xuất hiện trong bối cảnh các công ty triển khai các tác nhân AI cho các tác vụ ngoài đời thực và những kẻ tấn công bắt đầu sử dụng AI cho các hoạt động mạng.

Thay vì tập trung vào cách các mô hình được xây dựng, nghiên cứu xem xét các môi trường mà các tác nhân hoạt động trong đó. Nghiên cứu xác định sáu loại bẫy tận dụng cách các hệ thống AI đọc và hành động trên thông tin từ web.

Sáu nhóm tấn công được nêu trong bài báo bao gồm bẫy chèn nội dung, bẫy thao túng ngữ nghĩa, bẫy trạng thái nhận thức, bẫy kiểm soát hành vi, bẫy ở cấp hệ thống và bẫy có sự tham gia của con người trong vòng lặp.

Chỉ dẫn ẩn và các chiến thuật thao túng tinh vi

Chèn nội dung nổi bật như một trong những rủi ro trực tiếp nhất. Các chỉ dẫn ẩn có thể được đặt bên trong các bình luận HTML, metadata hoặc các phần tử trang được che giấu, cho phép các tác nhân đọc các lệnh vẫn vô hình đối với người dùng. Các bài kiểm tra cho thấy những kỹ thuật này có thể chiếm quyền điều khiển hành vi của tác nhân với tỷ lệ thành công cao.

Thao túng ngữ nghĩa hoạt động khác đi, dựa vào ngôn ngữ và cách định khung thay vì mã ẩn. Các trang được tải kèm cách diễn đạt mang tính thẩm quyền hoặc được ngụy trang thành các kịch bản nghiên cứu có thể ảnh hưởng đến cách các tác nhân diễn giải nhiệm vụ, đôi khi trượt qua các chỉ dẫn có hại qua các biện pháp bảo vệ tích hợp sẵn.

Một lớp khác nhắm vào các hệ thống bộ nhớ. Bằng cách cấy thông tin bịa đặt vào các nguồn mà các tác nhân dựa vào để truy xuất, kẻ tấn công có thể ảnh hưởng đến đầu ra theo thời gian, khi tác nhân coi dữ liệu sai là kiến thức đã được xác thực.

Các cuộc tấn công kiểm soát hành vi đi theo một lối đi trực tiếp hơn bằng cách nhắm vào những gì một tác nhân thực sự làm. Trong các trường hợp này, các chỉ dẫn jailbreak có thể được nhúng vào nội dung web thông thường và được hệ thống đọc trong quá trình duyệt thường nhật. Các bài kiểm tra riêng biệt cho thấy các tác nhân có quyền truy cập rộng có thể bị thúc đẩy tìm kiếm và truyền dữ liệu nhạy cảm, bao gồm mật khẩu và các tệp cục bộ, đến các điểm đến bên ngoài.

Các rủi ro ở cấp hệ thống mở rộng vượt ra ngoài từng tác nhân riêng lẻ, khi bài báo cảnh báo rằng việc thao túng phối hợp trên nhiều hệ thống tự động có thể kích hoạt các hiệu ứng dây chuyền, tương tự các vụ sụp đổ “flash crash” trên thị trường trong quá khứ do các vòng lặp giao dịch theo thuật toán gây ra.

Các nhà duyệt con người cũng là một phần của bề mặt tấn công, vì các đầu ra được chế tác cẩn thận có thể trông đủ thuyết phục để giành được sự phê duyệt, cho phép các hành động gây hại vượt qua sự giám sát mà không làm dấy lên nghi ngờ.

Cách phòng vệ trước các rủi ro này?

Để đối phó với các rủi ro này, các nhà nghiên cứu đề xuất kết hợp huấn luyện đối kháng, lọc đầu vào, giám sát hành vi và các hệ thống danh tiếng cho nội dung web. Họ cũng nhấn mạnh nhu cầu có các khung pháp lý rõ ràng hơn về trách nhiệm pháp lý khi các tác nhân AI thực hiện các hành động gây hại.

Bài báo dừng lại ở chỗ chưa đưa ra một giải pháp hoàn chỉnh và lập luận rằng ngành công nghiệp vẫn còn thiếu một sự hiểu biết chung về vấn đề, khiến các biện pháp phòng vệ hiện tại bị rải rác và thường tập trung vào những khu vực không đúng.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.