Quy trình làm việc về an ninh AI mã nguồn mở của Anthropic: Tự động phát hiện lỗ hổng qua bảy giai đoạn, xác nhận và tạo bản vá

Anthropic đã mở nguồn một bộ hệ thống tự động hóa dây chuyền an ninh mạng dựa trên Claude, toàn bộ hệ thống từ tìm lỗ hổng, xác thực nhiều lớp đến sinh ra bản vá, đều do AI hợp tác hoàn thành, bất kỳ đội ngũ an ninh nào cũng có thể tự xây dựng để sử dụng.
(Tiền đề: Anthropic:「Mythos Preview」mô hình có khả năng ra quyết định vượt xa chuyên gia con người, tỷ lệ thắng lên tới 64%)
(Bổ sung nền: Bloomberg tiết lộ Claude Mythos đã bị truy cập trái phép! Lỗ hổng khó phòng ngừa nhất của Anthropic luôn là “con người”)

Mục lục bài viết

Toggle

  • Bảy giai đoạn, một dây chuyền tự kiểm chứng
  • Hai con đường, một lựa chọn
  • Tường đang bị chính công cụ đó xuyên thủng

Trong thời gian gần đây, Claude Opus của Anthropic đã phát hiện hàng trăm lỗ hổng bảo mật trong nhiều thư viện mã nguồn mở, những lỗ hổng này “dù đã qua nhiều năm xem xét của các chuyên gia, vẫn chưa được phát hiện”, nổi bật lên giới hạn của việc kiểm tra thủ công có cấu trúc.

Gần đây, Anthropic đã mở nguồn toàn bộ dây chuyền tự động tìm lỗ hổng, xác thực nhiều lớp, cuối cùng sinh ra bản vá trên GitHub, bất kỳ đội ngũ an ninh nào cũng có thể tự xây dựng, tùy chỉnh, chuyển đổi sang mã mục tiêu của mình.

Bảy giai đoạn, một dây chuyền tự kiểm chứng

Toàn bộ hệ thống mang tên Defending Code Reference Harness, trung tâm là một dây chuyền tự động hóa gồm bảy giai đoạn:

Build (Xây dựng), Recon (Điều tra), Find (Tìm lỗ hổng), Verify (Xác thực), Dedupe (Loại bỏ trùng lặp), Report (Báo cáo), Patch (Chỉnh sửa). Mỗi giai đoạn có một AI riêng đảm nhiệm, các giai đoạn trước sau chỉ truyền tải tối thiểu thông tin, không để các giai đoạn sau bị nhiễm bởi các phán đoán chủ quan của giai đoạn trước.

Giai đoạn Build biên dịch phần mềm mục tiêu thành một ảnh có trình phát hiện ASAN. ASAN tên đầy đủ là AddressSanitizer, đơn giản là một “máy dò mìn” các lỗ hổng an toàn bộ nhớ, khi chương trình chạy nếu gặp truy cập bộ nhớ trái phép sẽ kích hoạt cảnh báo ngay lập tức. Ảnh này được dùng chung cho tất cả các giai đoạn sau, đảm bảo mọi AI đều nhìn thấy cùng một môi trường mã nguồn.

Giai đoạn Find là động cơ của toàn bộ hệ thống. N N AI đồng thời làm việc trong các container cách ly, đọc mã nguồn, tạo ra các đầu vào độc hại. Phương pháp “tạo đầu vào độc hại”, nói dễ hiểu là fuzz testing: đưa các dữ liệu kỳ quặc, dị dạng, vượt quá giới hạn cho chương trình, xem nó có bị sập không.

Chỉ khi một lỗi gây sập có thể tái lập ổn định ba lần, các AI mới gửi báo cáo phát hiện này, nhằm loại bỏ báo động sai. Báo động sai, đơn giản là “nhận dạng nhầm hành vi bình thường thành lỗ hổng”, là vấn đề thường bị chỉ trích nhất của các công cụ an ninh.

Anthropic đặc biệt nhấn mạnh, hệ thống sử dụng nhiều cơ chế xác thực để mỗi báo cáo về lỗ hổng đều có điểm tin cậy và mức độ nghiêm trọng rõ ràng.

Tiếp theo là Verify. Một AI mới trong container riêng sẽ chạy lại đoạn proof-of-concept (PoC), đơn giản là “mã thực thi tối thiểu chứng minh lỗ hổng tồn tại”, chỉ các byte gốc của PoC mới được truyền giữa các container, đảm bảo AI không biết quá trình suy luận của AI trước, giữ tính độc lập của kết luận.

Giai đoạn Report tạo ra phân tích khả năng khai thác đầy đủ cho từng lỗ hổng, còn có một AI đánh giá độc lập kiểm tra các luận điểm trong báo cáo có đúng dòng mã nguồn và kết quả thực thi hay không. Trước khi sinh ra bản vá dự kiến, hệ thống yêu cầu xác nhận thủ công để áp dụng.

Toàn bộ dây chuyền chạy trên sandbox gVisor. gVisor đơn giản là một công nghệ ảo hóa nhẹ cách ly ở tầng nhân hệ điều hành, dù AI chạy trong container, hoàn toàn không tiếp xúc với hệ thống tập tin của máy chủ, và chỉ mở cổng ra API Claude, không để lộ dữ liệu ra ngoài.

Hai con đường, một lựa chọn

Hệ thống này cung cấp hai cách sử dụng, độ phức tạp khác nhau, Anthropic khuyên bắt đầu từ cách đơn giản hơn.

Con đường thứ nhất: Kỹ năng tương tác (Interactive Skills). Chỉ cần bốn dòng lệnh:

git clone https://github.com/anthropics/defending-code-reference-harness cd defending-code-reference-harness claude /quickstart

Chạy /quickstart sẽ hướng dẫn bạn qua toàn bộ quy trình tương tác: mô hình hóa mối đe dọa → quét lỗ hổng tĩnh → phân loại và loại bỏ trùng lặp thủ công → sinh bản vá. Toàn bộ không cần môi trường container, phù hợp để làm quen quy trình rồi mới quyết định tự động hóa.

Con đường thứ hai: Dây chuyền tự động (Autonomous Pipeline). Cần cài đặt gVisor sandbox, thiết lập ANTHROPIC_API_KEY, mới có thể chạy đầy đủ bảy giai đoạn trên mục tiêu thực, xuất ra báo cáo lỗ hổng có điểm tin cậy và bản vá đề xuất. Trong repo GitHub có thư viện mẫu có lỗ hổng tên drlibs, khuyên bắt đầu thử với nó rồi chuyển sang mục tiêu của mình.

Khuyến nghị của Anthropic là: ngày đầu chạy toàn bộ quy trình tương tác, ngày thứ hai chuyển sang chạy tự động trên mục tiêu C/C++, ngày thứ ba đến năm dùng /customize để chuyển sang các ngôn ngữ hoặc loại lỗ hổng khác.

Trong file có câu đáng nhớ: “Những đội thành công đều chống lại sự cám dỗ thiết kế hoàn hảo dây chuyền rồi mới bắt đầu, hãy bắt đầu trước, rồi lặp lại.”

Tường đang bị chính công cụ đó xuyên thủng

Cuộc chiến phòng thủ và tấn công trong an ninh mạng lâu nay luôn mang tính cấu trúc. Kẻ tấn công chỉ cần tìm một lối vào; phòng thủ phải bịt kín mọi khe hở.

Các mục tiêu như GhostScript, OpenSC, CGIF đều là các dự án mã nguồn mở đã trưởng thành, triển khai rộng rãi, nhưng các lỗ hổng tiềm ẩn trong hàng chục năm vẫn chưa được phát hiện thủ công, cho đến khi Claude Opus tự đọc toàn bộ lịch sử gửi mã, suy luận ra một bản vá chưa hoàn chỉnh, theo dõi logic qua các tệp khác, tạo ra một đoạn PoC có thể thực thi được. Quá trình này không dựa vào đối chiếu quy tắc, mà là suy luận.

Anthropic đồng thời cung cấp hai con đường: mã nguồn mở Defending Code Reference Harness dành cho các đội muốn kiểm soát hoàn toàn, tự xây dựng, tùy chỉnh; và Claude Security là phiên bản thương mại hoàn toàn quản lý, không cần cấu hình gVisor hay hạ tầng.

Phiên bản mã nguồn mở mang lại tính minh bạch và kiểm soát, còn phiên bản quản lý mang lại trải nghiệm dễ dàng, nhanh chóng, hai con đường đều hướng tới mục tiêu định vị công cụ phòng thủ như một hạ tầng thiết yếu của an ninh mạng.

Khả năng tìm lỗ hổng, trước đây chỉ dành cho các tổ chức lớn có nguồn lực thuê đội đỏ hàng đầu. Giờ đây, dây chuyền này đã mở nguồn, bức tường bất đối xứng giữa phòng thủ và tấn công đang bị chính công cụ này cùng lúc xuyên thủng từ hai phía.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim