Đội ngũ Anthropic đã đăng trên blog hướng dẫn Claude về Zero Trust cho các tác nhân AI về việc triển khai an toàn các tác nhân AI tự động trong môi trường doanh nghiệp. Trong tài liệu này, các rủi ro chính của hệ thống tác nhân và phương pháp an ninh mạng cho doanh nghiệp được đề cập.

AI đã thúc đẩy chu kỳ tấn công

Theo đánh giá của Anthropic, các mô hình tiên tiến đã rút ngắn khoảng cách giữa phát hiện lỗ hổng và khai thác từ vài tháng xuống còn vài giờ. Công ty đề xuất xem xét không chỉ các cuộc tấn công dựa trên AI vào hạ tầng, mà còn các rủi ro của chính các tác nhân, có thể diễn giải mục tiêu, chọn lựa công cụ và thực hiện các hành động nhiều bước mà không cần sự tham gia liên tục của con người.

Trong hướng dẫn dựa trên các nguyên tắc Zero Trust: không tin tưởng mặc định, kiểm tra từng hành động và giả định có thể bị xâm phạm. Anthropic tham khảo các khuyến nghị của NIST SP 800-207, xuất bản năm 2020, và loạt hướng dẫn thực thi Zero Trust mà NSA bắt đầu phát hành từ năm 2026. Hướng dẫn này được xem như một khung thực hành cho các đội an ninh, kiến trúc sư và kỹ sư, chứ không phải là một quy trình tuân thủ toàn diện.

Trong tài liệu, các mối đe dọa chính được liệt kê gồm can thiệp trực tiếp và gián tiếp qua prompt, nhiễm độc công cụ, lạm dụng danh tính và đặc quyền, đầu độc bộ nhớ và ngữ cảnh, cũng như các cuộc tấn công chuỗi cung ứng.

Việc đầu độc prompt trực tiếp được mô tả là việc cấy ghép các lệnh độc hại qua đầu vào của người dùng, còn gián tiếp là qua các trang web, email, tài liệu và các nguồn bên ngoài khác mà tác nhân xử lý trong quá trình hoạt động.

Trong tài liệu, các phương thức thay thế công cụ hợp pháp bằng độc hại và các chuỗi gọi hàm nguy hiểm được phân tích, khi các công cụ an toàn riêng lẻ khi kết hợp lại có thể tạo ra rủi ro. Anthropic sử dụng các khái niệm “bán kính vụ nổ” (blast radius) và “các chủ thể tối thiểu” (least agency): không chỉ đề cập đến quyền truy cập tối thiểu mà còn là hạn chế nghiêm ngặt các hành động của tác nhân, tần suất gọi hàm và các lĩnh vực mà nó có thể truy cập.

Zero Trust cho hệ thống tác nhân

Để bảo vệ, công ty đề xuất mô hình trưởng thành gồm ba cấp độ và bộ các biện pháp kỹ thuật cơ bản. Ở cấp độ ban đầu, hướng dẫn khuyên nên cấp cho mỗi bản sao của tác nhân một danh tính mã hóa duy nhất, sử dụng token ngắn hạn, áp dụng “cấm theo mặc định” và “quản lý truy cập dựa trên vai trò”. Đối với các tác nhân làm việc với đầu vào không đáng tin cậy như nội dung web và tài liệu, phương pháp “thực thi trong sandbox” thực chất là biện pháp bắt buộc.

Ở các cấp độ cao hơn, Anthropic đề xuất áp dụng:

tiêu chuẩn mTLS với xác thực chéo giữa khách hàng và máy chủ bằng chứng chỉ số;
danh tính liên kết phần cứng qua HSM hoặc TPM, cùng với xác thực từ xa.

Các API khóa tĩnh và mật khẩu chung của tài khoản dịch vụ trong tài liệu được xem là không phù hợp ngay cả ở cấp độ cơ bản.

Phần lớn tài liệu dành cho khả năng giám sát. Anthropic khuyên ghi nhật ký chi tiết tất cả các hành động của tác nhân, bao gồm gọi công cụ, truy cập dữ liệu và liên lạc bên ngoài, rồi truyền các sự kiện này vào SIEM để phân tích trong thời gian thực. Các chỉ số chính gồm thời gian tồn tại (dwell time) và phạm vi bao phủ (coverage). Đối với các hệ thống quan trọng, thời gian phát hiện bất thường mục tiêu là trong vòng một giờ. Ngoài ra, hướng dẫn đề xuất xây dựng “ma trận truy xuất nguồn gốc” để liên kết từng hành động của tác nhân với yêu cầu ban đầu và phục hồi toàn bộ chuỗi quyết định.

Tương lai của Trung tâm vận hành an ninh — tác nhân dưới sự kiểm soát của con người

Về phần phản ứng, Anthropic đề ra nguyên tắc: tự động hóa thủ tục hành chính xung quanh sự cố, nhưng không tự động hóa các quyết định then chốt. Các tác nhân và mô hình được đề xuất giao nhiệm vụ thu thập và sơ bộ phân loại các artefact, duy trì các nhánh điều tra song song và chuẩn bị bản nháp báo cáo hậu sự cố. Các quyết định về kiềm chế, tiết lộ sự cố và giao tiếp với khách hàng nên để con người quyết định. Cách tiếp cận này cũng áp dụng cho “hoạt động bảo vệ” — chuyển từ mô hình SOAR truyền thống sang mô hình dựa trên tác nhân.

Trong tài liệu, cũng có các chỉ số định lượng. Anthropic tham khảo nghiên cứu của Microsoft Spotlighting, trong đó tỷ lệ thành công của các cuộc tấn công gián tiếp qua đầu độc prompt giảm từ hơn 50% xuống còn dưới 2%. Công ty cũng đưa ra kết quả của chính mình về việc sử dụng “bộ phân loại theo hiến pháp”, theo đó hơn 95% các cố gắng vượt rào bị chặn lại với mức tăng nhỏ các lỗi giả.

Trong phần về chuỗi cung ứng, Anthropic đề xuất sử dụng AI-BOM, OpenSSF Scorecard, kiểm tra phụ thuộc và phân tích khả năng truy cập. Như một lý do, công ty dẫn nghiên cứu của chính mình cho thấy chỉ cần 250 tài liệu độc hại để cấy backdoor vào các mô hình có từ 600 triệu đến 13 tỷ tham số.

Cuối cùng, Anthropic kết luận rằng, đối với các tác nhân AI, không đủ chỉ dùng các bộ lọc điểm và các biện pháp bảo vệ theo vòng tròn. Công ty đề xuất xây dựng lớp bảo vệ dựa trên danh tính, quyền hạn tối thiểu, hạn chế thiệt hại từ trước và kiểm tra liên tục các hành động. Theo đánh giá của Anthropic, các tổ chức có kiến trúc bảo mật nền tảng mạnh nhất sẽ có lợi thế hơn, chứ không phải những tổ chức sở hữu AI tiên tiến nhất.

Nhắc lại, vào tháng 6, đội ngũ Anthropic đã cảnh báo về các rủi ro của việc AI tự cải thiện chính nó một cách recursive.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
StrategyAdds1550BTCatLowerPrices
2.87M Phổ biến
#
IsraelStrikesIranBTCPlunges
56.54K Phổ biến
#
SpaceXIPOSeesStrongOversubscription
1.44M Phổ biến
#
StrongNonfarmPayrollsRekindleRateHikeFear
1.81M Phổ biến
#
PredictNBAChampionWin20000U
186.22K Phổ biến

Đã ghim

sơ đồ trang web

Anthropic kêu gọi bảo vệ các tác nhân AI theo nguyên tắc Zero Trust - ForkLog: tiền điện tử, AI, siêu đặc, tương lai

AI đã thúc đẩy chu kỳ tấn công

Zero Trust cho hệ thống tác nhân

Tương lai của Trung tâm vận hành an ninh — tác nhân dưới sự kiểm soát của con người

Chủ đề thịnh hành

StrategyAdds1550BTCatLowerPrices

IsraelStrikesIranBTCPlunges

SpaceXIPOSeesStrongOversubscription

StrongNonfarmPayrollsRekindleRateHikeFear

PredictNBAChampionWin20000U

Đã ghim