91% có lỗ hổng, 94% có thể đầu độc, an ninh của AI Agent là một "mớ hỗn độn"

Tự động AI Agent đang xâm nhập vào y tế, tài chính và vận hành doanh nghiệp với tốc độ đáng kinh ngạc, nhưng nghiên cứu an ninh quy mô lớn nhất từ trước đến nay cho thấy: phần lớn các Agent đang hoạt động trong môi trường sản xuất đều tồn tại lỗ hổng nghiêm trọng, trong khi các phương pháp đánh giá an ninh chủ đạo hiện nay hầu như bất lực trước vấn đề này.

Gần đây, nhóm nghiên cứu hợp tác giữa Đại học Stanford, MIT CSAIL, Đại học Carnegie Mellon, ITU Copenhagen và NVIDIA đã phát hiện ra rằng trong 847 hệ thống tự động thông minh được triển khai sản xuất, có tới 91% tồn tại lỗ hổng tấn công chuỗi công cụ, 89,4% sau khoảng 30 bước thực thi xuất hiện lệch mục tiêu, 94% các hệ thống trí tuệ tăng cường bộ nhớ đối mặt với rủi ro “tội phạm đầu độc”. Nghiên cứu đã phát hiện tổng cộng 2.347 lỗ hổng chưa từng biết trước đây, trong đó 23% được đánh giá mức độ nghiêm trọng.

Tác giả chính của bài báo, Owen Sakawa, dẫn chứng vụ việc “OpenClaw/Moltbook” đầu năm 2026 để chứng minh mối đe dọa này đã không còn là lý thuyết mà đã trở thành thực tế: chỉ một lỗ hổng trong cơ sở dữ liệu của nền tảng Moltbook đã khiến 770.000 Agent đang hoạt động bị tấn công đồng thời, mỗi Agent đều có quyền truy cập đặc quyền vào thiết bị người dùng, email và tệp tin của họ. “Điều này không còn là mối đe dọa giả thuyết nữa,” Sakawa nói.

Điều này gửi cảnh báo trực tiếp tới các doanh nghiệp và nhà đầu tư đang đẩy mạnh phát triển AI Agent: các khung đánh giá an ninh chủ đạo hiện nay đều dựa trên thiết kế mô hình ngôn ngữ không trạng thái, không thể nhận diện các lỗ hổng tổ hợp phát sinh trong quá trình thực thi nhiều bước, đồng nghĩa với việc nhiều doanh nghiệp có thể đang đánh giá sai lệch về an toàn thực sự của AI Agent của mình. Chuyên gia tâm lý học nhận thức và AI của Mỹ, Gary Marcus, bình luận: “Các Agent tự động thật là một mớ hỗn độn.”

Bản đồ lỗ hổng: Sáu loại tấn công, 2347 điểm yếu đã biết

Nghiên cứu bao gồm các ngành y tế (289 hệ thống, chiếm 34,1%), tài chính (247, chiếm 29,2%), dịch vụ khách hàng (198, chiếm 23,4%) và sinh mã code (113, chiếm 13,3%).

Nghiên cứu xây dựng một hệ thống phân loại gồm sáu loại lỗ hổng đối với tự động thông minh, bao gồm lệch mục tiêu và suy giảm lệnh chỉ huy, phân tách trình lập kế hoạch - thi hành, nâng cao quyền truy cập công cụ, đầu độc bộ nhớ, vi phạm chiến lược nhiều bước im lặng, và thất bại ủy thác.

Trong đánh giá môi trường sản xuất, thao tác trạng thái (State Manipulation) đứng đầu với 612 ví dụ (chiếm 26,1%), lệch mục tiêu (573 ví dụ, 24,4%) theo sau. Việc sử dụng sai công cụ và gọi chuỗi (chain calls) dù tổng số lượng (489 ví dụ) xếp thứ ba, nhưng mức độ nghiêm trọng cao nhất — 198 ví dụ được xếp vào mức nghiêm trọng, chiếm tỷ lệ cao nhất trong tất cả các loại.

Các số liệu quan trọng rộng hơn cũng gây sốc: 67% Agent sau 15 bước thực thi xuất hiện lệch mục tiêu, 84% không duy trì chính sách an toàn qua các phiên, 73% thiếu cơ chế phát hiện đầu độc trạng thái, 58% tồn tại lỗ hổng nhất quán theo trình tự thời gian. Nghiên cứu còn phát hiện, hiệu quả của đầu độc bộ nhớ trung bình chỉ xuất hiện sau 3,7 phiên, làm tăng đáng kể độ khó của các biện pháp phát hiện an ninh.

Ví dụ thực tế: 770.000 Agent cùng lúc bị xâm phạm

Vụ OpenClaw (tiền thân của Clawdbot và Moltbot) cung cấp minh chứng rõ ràng nhất cho mô hình đe dọa nêu trên.

Đây là một Agent mã nguồn mở do nhà phát triển Peter Steinberger của Áo phát hành vào tháng 11 năm 2025, trong vài tuần đã thu hút hơn 160.000 sao trên GitHub, có khả năng tự gửi email, quản lý lịch trình, thực thi lệnh terminal và triển khai mã, đồng thời duy trì bộ nhớ lâu dài qua các phiên.

Công ty an ninh mạng Astrix Security phát hiện qua công cụ quét tự phát triển ClawdHunter rằng có 42.665 ví dụ OpenClaw trên mạng công cộng, trong đó 8 ví dụ hoàn toàn mở và không yêu cầu xác thực.

Theo VentureBeat, nhóm nghiên cứu an ninh AI của Cisco mô tả OpenClaw là “có khả năng đột phá về năng lực, nhưng về mặt an ninh thì là cơn ác mộng toàn diện.” Kaspersky trong cuộc kiểm tra an ninh tháng 1 năm 2026 đã phát hiện 512 lỗ hổng, trong đó 8 mức độ nghiêm trọng cao.

Quá trình xảy ra của vụ Moltbook đặc biệt điển hình.

Nền tảng xã hội dành riêng cho Agent OpenClaw này đã thu hút hơn 770.000 đăng ký Agent qua hình thức lây lan virus — người dùng cung cấp thông tin Agent của mình cho Moltbook, rồi Agent tự động hoàn tất đăng ký.

Sau đó, lỗ hổng trong cơ sở dữ liệu của nền tảng cho phép kẻ tấn công bỏ qua xác thực, trực tiếp chèn lệnh vào các phiên Agent bất kỳ, khiến tất cả 770.000 Agent — mỗi Agent đều có quyền truy cập đặc quyền vào thiết bị người dùng — cùng lúc rơi vào trạng thái rủi ro. Nhóm nghiên cứu gọi đây là vụ tấn công quy mô lớn chưa từng có, có ghi nhận, lan truyền qua nhiều Agent.

“Tam giác chết chóc” (lethal trifecta) mà nhà nghiên cứu an ninh Simon Willison đề cập đã thể hiện đầy đủ trong OpenClaw: khả năng truy cập dữ liệu riêng tư, tiếp xúc với nội dung không đáng tin cậy, và các kênh liên lạc ra ngoài — ba yếu tố cộng hưởng khiến các Agent tự động trở thành cầu nối lý tưởng cho các cuộc tấn công.

Thiết kế thiếu sót: Tại sao AI Agent còn dễ tổn thương hơn LLM

Nghiên cứu khẳng định rằng, thách thức về an ninh của tự động thông minh và mô hình ngôn ngữ không trạng thái về bản chất hoàn toàn khác nhau.

Đánh giá an ninh mô hình ngôn ngữ tập trung vào việc “có thể khiến mô hình phát ngôn nội dung không an toàn hay không”; còn đối với AI Agent, vấn đề trở thành “có thể khiến mô hình làm những việc không an toàn hay không” — bao gồm gọi công cụ có hiệu quả thực tế, thay đổi trạng thái ảnh hưởng đến hành vi tương lai, và thực thi kế hoạch nhiều bước mới phát hiện vi phạm.

Nghiên cứu minh họa logic này qua các tình huống cụ thể: một Agent có quyền đọc tệp (read_file) và gửi yêu cầu HTTP (http_request), mỗi công cụ đều được kiểm soát truy cập riêng biệt, nhưng khi kết hợp lại, có thể thực hiện trộm cắp dữ liệu — đọc thông tin xác thực từ cấu hình rồi gửi ra ngoài qua yêu cầu HTTP. Mỗi bước đều phù hợp với chính sách an toàn cục bộ, nhưng tổng thể lại đạt mục tiêu phản tác dụng. Hiện tượng này được gọi là “an toàn tổ hợp” (compositional safety).

Trong các nghiên cứu về kiến trúc kiểm soát, các nhà nghiên cứu đã thử nghiệm bốn loại kiến trúc chính: ReAct, hệ thống đa Agent, Agent tăng cường bộ nhớ, và Agent sử dụng công cụ.

Kết quả cho thấy, tấn công nâng cao quyền đối với Agent dùng công cụ thành công tới 95%, tấn công đầu độc bộ nhớ của Agent tăng tới 94%.

Ngay cả hệ thống đa Agent có khả năng chống đỡ tốt nhất cũng có tỷ lệ thành công của tấn công lệch mục tiêu là 58% — các nhà nghiên cứu kết luận, tất cả các kiến trúc đã thử nghiệm đều chưa đủ khả năng chống lại các tấn công đối kháng.

Kết quả thử nghiệm tạo ra các tấn công dựa trên học tăng cường còn làm tăng mối lo ngại: tỷ lệ vi phạm trong các tấn công do học tăng cường tạo ra đạt 79%, cao hơn 25,4% so với các kịch bản do con người thiết kế — cho thấy mối đe dọa đối với AI Agent đang vượt ra ngoài phạm vi kiểm thử của các đội đỏ nhân tạo.

Ảnh hưởng trực tiếp tới doanh nghiệp: Khung bảo vệ chưa chín chắn

Nhóm nghiên cứu đề xuất mức độ an toàn tối thiểu dựa trên kết quả thực nghiệm: tất cả Agent sản xuất đều phải triển khai giám sát thời gian thực; các thao tác chuỗi liên quan đến truy cập dữ liệu và giao tiếp ra ngoài của công cụ phải có cơ chế phê duyệt thủ công; mỗi 20-25 bước thực thi phải bắt buộc có kiểm tra thủ công để đối phó với lệch mục tiêu gần như chắc chắn sẽ xảy ra sau đó; Agent tăng cường bộ nhớ cần được mã hóa và kiểm tra toàn vẹn trạng thái.

Về hiệu quả giám sát, nghiên cứu cho thấy giám sát từng bước (phát hiện thao tác đơn lẻ) có độ chính xác tới 0,94, giám sát theo chuỗi hành vi (đa bước) đạt điểm F1 0,85, giám sát trạng thái đạt F1 0,83. Trong thử nghiệm giám sát 127 Agent trong 30 ngày hoạt động, hệ thống đã chặn 4.782 thao tác, tỷ lệ báo động sai chỉ 3,7%, trong đó 14,6% thao tác bị đánh dấu là tấn công thực sự.

Nghiên cứu cũng chỉ ra rằng, phương pháp “quản trị AI” hiện tại có sự lệch căn bản: phần lớn là kiểm tra sau sự kiện chứ không thực thi các quy định phù hợp trong quá trình vận hành.

Khi các quy định của EU về Luật AI, khung quản lý rủi ro AI của NIST Mỹ bắt đầu có hiệu lực, áp lực về tuân thủ và rủi ro an ninh sẽ cùng tăng lên. Trong bối cảnh AI Agent được triển khai rộng rãi trong các lĩnh vực có rủi ro cao, việc thiếu hạ tầng an ninh phù hợp đang trở thành rủi ro hệ thống không thể bỏ qua trong làn sóng thương mại hóa AI lần này.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim