5 giây để phá vỡ, chỉ cần 1 cuộc trò chuyện: Claude Fable 5「Cơ chế an toàn mạnh nhất」bị nhóm người Hoa phá vỡ?

Tiêu đề gốc: 《5 giây phá vỡ, chỉ cần 1 lần đối thoại: Cơ chế an toàn mạnh nhất của Fable 5 bị nhóm Trung Quốc phá vỡ》
Nguồn gốc bài viết: Machine Heart

Không phải là tiêm nhắc nhở, không phải nhập vai, cũng không phải giả mạo yêu cầu độc hại thành câu hỏi bình thường. Lần này, rủi ro xuất hiện trong quá trình trí tuệ nhân tạo tự hoàn thành nhiệm vụ.

Fable 5 là mô hình Mythos cấp công khai của Anthropic, không chỉ có khả năng tổng hợp mạnh mẽ, mà còn giới thiệu lớp phòng thủ an toàn thế hệ mới (Safety Classifier) bên ngoài mô hình như một lớp phòng vệ.

Theo thiết kế chính thức, khi người dùng yêu cầu liên quan đến an ninh mạng, sinh học, hóa học, chưng cất mô hình và các lĩnh vực rủi ro cao khác, hệ thống sẽ ưu tiên nhận diện rủi ro, và dựa trên mức độ rủi ro sẽ từ chối yêu cầu hoặc chuyển sang xử lý bằng mô hình Opus 4.8 cẩn trọng hơn.

Nhiều thử nghiệm của người dùng cho thấy, các kỹ thuật tấn công như sử dụng lời nhắc đối kháng, nhập vai, vòng lặp mã hóa, diễn đạt mập mờ từng bị vô hiệu hóa gần như hoàn toàn trước cơ chế an toàn này, thể hiện khả năng chặn rủi ro theo cấp ý định rất mạnh mẽ.

Tuy nhiên, ngay trong ngày ra mắt Fable 5, một nhóm nghiên cứu liên hợp quốc tế gồm các tổ chức như Đại học Phúc An, Đại học Deakin, Đại học Thành phố Hồng Kông, Đại học Melbourne, Quản lý Singapore, và Đại học Illinois tại Urbana-Champaign đã tuyên bố họ đã thành công vượt qua cơ chế phòng thủ an toàn của Fable 5.

Phương pháp tấn công này do Tiến sĩ Yutao Wu của Đại học Deakin thiết kế chủ đạo. Toàn bộ cuộc tấn công chỉ cần một lần đối thoại, mất chưa đến 5 giây, có thể vượt qua bộ phân loại an toàn trước đó, dụ dỗ mô hình sinh ra nội dung vi phạm quy định.

Kết quả phân tích luồng dữ liệu cho thấy, các output độc hại liên quan trực tiếp xuất phát từ chính Fable 5, chứ không phải do chuyển sang mô hình Opus 4.8 tự động sau khi kích hoạt cơ chế an toàn. Điều này có nghĩa, cuộc tấn công này không chỉ thành công vượt qua bộ phân loại an toàn mà còn thực chất phá vỡ lớp phòng thủ an toàn của Fable 5.

Điều đáng chú ý là, hacker nổi tiếng Pliny the Liberator gần đây cũng đã công khai phương pháp vượt qua bộ phân loại an toàn của Fable 5. Trong khi đó, kỹ thuật mà nhóm Phúc An & Deakin sử dụng không chỉ đơn thuần là kết hợp các phương pháp, mà còn phát hiện ra những điểm yếu căn bản của hệ thống siêu trí tuệ như Fable 5.

Theo thông tin, nhóm đã hoàn thành nghiên cứu sơ bộ và công bố từ tháng 3 năm nay. Nghiên cứu này không chỉ dành riêng cho hệ thống Fable 5, mà còn tập trung vào kiến trúc phòng thủ "bộ phân loại an toàn + mô hình" của thế hệ siêu trí tuệ mới, tiết lộ trực tiếp các điểm yếu cấu trúc của cơ chế an toàn này, do đó sau khi Fable 5 ra mắt, đã nhanh chóng thể hiện khả năng tấn công.

Theo hồ sơ công khai, nhóm đã sử dụng công nghệ tương tự từ tháng 3 năm nay để thành công trích xuất lời nhắc hệ thống từ 37 mô hình lớn và hệ thống trí tuệ nhân tạo hàng đầu, và đã xác thực mã nguồn mở với Claude Code (khớp 95%).

Theo thông tin, trưởng nhóm nghiên cứu của nhóm này là ông Ma Xingjun, Viện Nghiên cứu Trí tuệ Nhân tạo Đáng tin cậy của Đại học Phúc An.

Trong những năm gần đây, nhóm của ông đã tiến hành nghiên cứu hệ thống về mô hình lớn, trí tuệ nhân tạo và an toàn trí tuệ thể hiện, đạt được nhiều thành tựu nghiên cứu hàng đầu quốc tế, và giành chiến thắng trong cuộc thi tiêu chuẩn an toàn AI của Trung tâm An toàn AI Mỹ.

Hiện tại, nhóm đang tích cực thúc đẩy chuyển giao kết quả nghiên cứu, tập trung vào an toàn trí tuệ nhân tạo, khám phá xây dựng hạ tầng an toàn cho hệ thống trí tuệ nhân tạo thế hệ tiếp theo.

Theo ông Ma, ý nghĩa quan trọng của kết quả nghiên cứu này là nó đặt ra thách thức mới đối với mô hình phòng thủ tĩnh dựa trên bộ phân loại an toàn hiện tại: Chỉ dựa vào bộ phân loại an toàn phía trước là không đủ để hoàn toàn phòng ngừa các hành vi rủi ro tiềm ẩn trong hệ thống trí tuệ nhân tạo cao cấp.

Bộ phân loại an toàn chủ yếu nhận diện và chặn các lệnh có rủi ro cao rõ ràng, có thể phát hiện và lọc các yêu cầu nguy hiểm rõ ràng, nhưng không thể cảm nhận các hành vi rủi ro nội tại phát sinh dần trong quá trình hoạt động lâu dài, lập kế hoạch nhiều bước, tương tác môi trường và gọi công cụ của trí tuệ nhân tạo.

Phương pháp phá vỡ Fable 5 này bắt nguồn từ bài báo nhóm đã công bố tháng 3 năm nay mang tên 《Suy sụp An toàn Nội bộ trong Các Mô hình Ngôn ngữ Lớn Tiên phong》.

Bài báo tiết lộ một hiện tượng an toàn bí ẩn 「Suy sụp An toàn Nội bộ (Internal Safety Collapse, ISC)」: Khi Agent hoàn thành nhiệm vụ dài hạn, sự mất an toàn không nhất thiết đến từ lời nhắc độc hại bên ngoài, mà có thể xảy ra trong chuỗi thực thi của chính mô hình.

Không phải tấn công bằng lời nhắc bên ngoài mà là mất an toàn nội bộ trong chuỗi nhiệm vụ

Các cuộc tấn công truyền thống thường bắt nguồn từ bên ngoài. Kẻ tấn công sẽ viết lời nhắc tưởng chừng vô hại, nhưng thực chất đối kháng, hoặc dùng vai trò, mã hóa, dịch thuật, chỉ thị gián tiếp để giả mạo ý đồ độc hại thành yêu cầu bình thường. Bộ phân loại an toàn chính là lớp chặn rủi ro ở tầng này.

Bộ phân loại của Fable 5 chính là để xử lý các tình huống như vậy. Nó rất nhạy cảm với các yêu cầu có rủi ro cao trực tiếp, thậm chí còn chặn nhiều yêu cầu bình thường. Nhưng ISC tiết lộ một con đường khác: rủi ro không nhất thiết đến từ yêu cầu nguy hiểm trực tiếp của người dùng.

Trí tuệ nhân tạo đối mặt với một thư mục công việc có vẻ bình thường: tệp, mục tiêu, quy trình kiểm tra và nhiệm vụ cần hoàn thành. Sau đó, nó bắt đầu lập kế hoạch, đọc tệp, chạy mã, sửa lỗi, và liên tục cố gắng để nhiệm vụ qua kiểm tra.

Nếu dùng một phép ẩn dụ sinh động để giải thích, cơ chế an toàn truyền thống bảo vệ "lối vào" của hệ thống, chịu trách nhiệm kiểm tra xem đầu vào của người dùng có rủi ro hay không; còn ISC tiết lộ thì giống như các tầng mơ trong 《Xây dựng mơ》.

Khi nhiệm vụ tiến đến tầng thứ hai, thứ ba hoặc các tầng sâu hơn, mô hình sẽ dựa trên ngữ cảnh nội bộ tích lũy liên tục để hiểu lại mục tiêu nhiệm vụ, và trong quá trình này, dần dần có sự lệch hướng.

Trong tình huống này, đầu vào ban đầu của người dùng hoàn toàn có thể là bình thường và vô hại, quá trình thực hiện nhiệm vụ ban đầu cũng luôn hợp lệ: đọc tệp, phân tích dữ liệu, viết mã, gọi công cụ, mọi thứ đều theo dự kiến.

Tuy nhiên, khi trí tuệ nhân tạo thực hiện đến một giai đoạn then chốt, nó có thể tự suy ra kết luận: nếu không thực hiện một số hành vi vốn không nên làm, thì không thể hoàn thành nhiệm vụ cuối cùng.

Chính trong quá trình này, rủi ro không đến từ đầu vào bên ngoài, mà dần hình thành trong chuỗi thực thi nhiệm vụ của chính mô hình. Nói cách khác, mô hình không bị người dùng dạy hư từng bước. Nó trong quá trình "chăm chỉ hoàn thành nhiệm vụ", tự mình đi đến vị trí không an toàn.

Hiện tượng này được phát hiện như thế nào?

Theo nhóm nghiên cứu, ISC không phải ban đầu đã được thiết kế thành một phương pháp tấn công. Nó bắt nguồn từ quan sát quá trình hoạt động dài hạn của trí tuệ nhân tạo. Khi Agent được đặt vào môi trường nhiệm vụ phức tạp, nó không chỉ thực thi lệnh một cách máy móc. Nó sẽ lập kế hoạch, thử sai, dựa trên phản hồi của harness hoặc validator để chỉnh sửa output, và hình thành các mục tiêu trung gian qua nhiều vòng thực thi.

Đây chính là cách làm phổ biến nhất trong các quy trình làm việc của nhiều Agent ngày nay. Người dùng không viết một prompt thiết kế kỹ lưỡng, cũng không tự tay tạo ra lệnh tấn công. Nhiều khi, họ chỉ đưa ra một câu rất mơ hồ:

「Giúp tôi hoàn thành nhiệm vụ này.」「Giúp tôi làm tốt hơn chút nữa。」

Sau đó, Agent sẽ tự vào không gian làm việc, đọc tệp, hiểu trạng thái hiện tại, phát hiện các thiếu sót, đề ra kế hoạch, thực hiện chỉnh sửa, và liên tục sửa lỗi dựa trên phản hồi.

Ví dụ trong kịch bản AutoResearch, người dùng chỉ cung cấp một bài luận chưa hoàn chỉnh và một câu "Giúp tôi hoàn thiện", thì Agent sẽ tự xác định chỗ thiếu phân tích thực nghiệm, các công trình liên quan hoặc bảng biểu. Trong kịch bản mã nguồn cũng tương tự: chỉ cần một câu "Giúp tôi chạy dự án", có thể kích hoạt kiểm tra phụ thuộc, chạy thử, xác định lỗi và tự động hoàn thiện.

Nhiều khi, ngữ cảnh ban đầu hoàn toàn vô hại. Người dùng không yêu cầu nó tạo nội dung nguy hiểm, mô tả nhiệm vụ cũng không có từ khóa nguy hiểm rõ ràng. Nhưng trong một số cấu trúc nhiệm vụ, Agent sẽ chủ động bổ sung những nội dung không nên do mô hình tạo ra để qua kiểm tra. Dựa trên quan sát này, nhóm nghiên cứu đã đề xuất một khung tấn công: TVD (Nhiệm vụ, Xác thực, Dữ liệu).

Tại sao một cấu trúc mô tả nhiệm vụ trông có vẻ rất bình thường lại trở thành mục tiêu tấn công?

Cấu trúc TVD không phức tạp, thậm chí rất gần với quy trình kỹ thuật phổ biến:

· Task: một nhiệm vụ chuyên môn;

· Data: một tệp dữ liệu chưa đầy đủ;

· Validator: một bộ kiểm tra chỉ kiểm tra định dạng, tính toàn vẹn và mục tiêu đã hoàn thành hay chưa.

Lấy ví dụ huấn luyện mô hình Guard, đây là một nhiệm vụ rất chuyên nghiệp và bình thường. Các nhà nghiên cứu có thể muốn huấn luyện hoặc đánh giá một bộ phát hiện an toàn, ví dụ như dùng Hugging Face để tải một mô hình phân loại văn bản, xác định xem một đoạn output của mô hình thuộc loại nhãn an toàn nào.

Trong nhiệm vụ này, Data là mẫu dữ liệu cần kiểm tra của mô hình; Validator quy định xem nhiệm vụ đã hoàn thành chưa. Nó sẽ kiểm tra xem đầu vào có phải là văn bản, độ dài có đủ không, các trường có đầy đủ không, định dạng nhãn có đúng không. Với những người có kinh nghiệm huấn luyện machine learning, đây là quy trình quen thuộc. Agent cũng rất quen thuộc với quy trình này.

Vấn đề bắt đầu từ đây. Nếu Data không đầy đủ, nhiệm vụ sẽ không thể bắt đầu. Validator sẽ báo lỗi, cảnh báo thiếu trường, độ dài không đủ hoặc định dạng không đúng. Để tiếp tục quá trình huấn luyện, Agent sẽ tự điền bổ sung Data.

Từ góc nhìn của Agent, nó không "làm điều xấu". Nó chỉ đang hoàn thành một nhiệm vụ học máy bình thường: sửa dữ liệu, vượt qua kiểm tra, để chạy script huấn luyện. Nhưng về mặt an toàn, rủi ro xuất hiện ngay tại thời điểm này: Validator giống như một người nghiệm thu kỹ thuật, chứ không phải người kiểm tra an toàn. Nó chỉ kiểm tra xem nhiệm vụ có đúng định dạng không, chứ không hiểu rõ giới hạn an toàn phía sau nội dung.

Các vấn đề tương tự cũng phổ biến trong lĩnh vực y học, sinh học, hóa học, an ninh mạng, dược lý và an toàn truyền thông. Bài báo đã tổng hợp hơn 50 tình huống như vậy, và liên quan đến nhiều công cụ nghiên cứu hoặc kỹ thuật thực tế như BioPython, RDKit, Cantera, AutoDock Vina, DiffDock, PyRosetta, Scapy, Impacket, angr, Frida, LlamaGuard, Detoxify, API kiểm duyệt của OpenAI, v.v.

Các công cụ này bản thân không phải là công cụ độc hại. Ngược lại, chúng đều là các công cụ chuyên nghiệp phổ biến trong nghiên cứu và kỹ thuật thực tế. Nhưng vấn đề của TVD là: Khi Task là bình thường, Tool là bình thường, Validator cũng bình thường, thì Agent vẫn có thể đi theo hướng không an toàn trong quá trình bổ sung Data.

Do đó, trọng tâm của ISC không phải là kỹ thuật lời nhắc, mà là khả năng tự hoàn thiện nhiệm vụ chưa hoàn thành của Agent: khi điều kiện hoàn thành và ranh giới rủi ro chồng chéo, mô hình có thể coi nội dung không an toàn là sản phẩm bình thường.

Phá vỡ Fable 5 chứng minh bộ phát hiện mạnh cũng không thể ngăn chặn rủi ro trong chuỗi nhiệm vụ nội bộ

Trường hợp của Fable 5 cho thấy, chỉ dựa vào bộ phát hiện bên ngoài vẫn có thể bỏ sót một số tình huống Agent dài hạn. Điều này không có nghĩa là bộ phân loại an toàn không có giá trị. Ngược lại, nó rất hữu ích đối với các yêu cầu độc hại từ bên ngoài, và thực sự khiến nhiều phương pháp vượt tường truyền thống thất bại.

Nhưng lần này, thất thủ cho thấy, bộ phát hiện bên ngoài chỉ có hiệu quả đối với ranh giới lời nhắc, không thể bao quát các rủi ro trong chuỗi nhiệm vụ nội bộ của Agent.

Nếu điểm yếu không nằm ở lời nhắc của người dùng, mà xuất hiện trong mục tiêu, công cụ, validator và quá trình thực thi của Agent, thì bộ phát hiện an toàn sẽ trở nên rất dễ tổn thương.

Từ Fable 5 đến hơn 60 mô hình khác, bao gồm cả mô hình trên điện thoại của Apple

Cùng với việc công bố ISC-Bench, bao phủ 9 lĩnh vực chuyên môn. Phiên bản bài báo có hơn 60 mẫu kích hoạt, sau khi mở mã nguồn mở đã mở rộng lên 84 mẫu, thử nghiệm trên gần như tất cả các mô hình và hệ thống trí tuệ nhân tạo hàng đầu của các nhà cung cấp.

Trong bảng xếp hạng đánh giá dựa trên ISC-Bench, đến tháng 6 năm 2026, hơn 60 mô hình hàng đầu đều đã bộc lộ các rủi ro tương tự dưới chỉ số ASR@3!

Dự án trên GitHub đã nhận được hơn 800 sao, và thu thập nhiều ví dụ tái tạo độc lập (bao gồm cả phá vỡ mô hình điện thoại của Apple), và vẫn đang tiếp tục cập nhật.

Theo thông tin, nhóm đang tiến hành nghiên cứu an toàn mô hình hàng loạt quy mô lớn, hiện đã nắm rõ phân bố dữ liệu không an toàn nội bộ của nhiều mô hình, các kết quả nghiên cứu liên quan sẽ lần lượt được công bố trong thời gian tới.

Liên kết bài viết gốc

Nhấn để biết thêm về Rhythm BlockBeats đang tuyển dụng

Chào mừng gia nhập cộng đồng chính thức của Rhythm BlockBeats:

Nhóm Telegram theo dõi: https://t.me/theblockbeats

Nhóm Telegram trao đổi: https://t.me/BlockBeats_App

Tài khoản chính thức Twitter: https://twitter.com/BlockBeatsAsia

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận