Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
CFD
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
CFD
Phái sinh CFD cổ phiếu Hoa Kỳ
Cổ phiếu Hoa Kỳ
Tiếp cận cổ phiếu và quỹ ETF thực của Hoa Kỳ
Cổ phiếu Hongkong
Giao dịch cổ phiếu chất lượng được niêm yết tại Hongkong
Cổ phiếu Hàn Quốc
SK Hynix
Giao dịch cổ phiếu Hàn Quốc thực và đầu tư vào các tài sản phổ biến
Futures cổ phiếu
Đòn bẩy cao, giao dịch 24/7
Cổ phiếu token hóa
Được hỗ trợ bởi tài sản cổ phiếu thực
IPO Access
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
GUSD
Đúc GUSD để nhận lợi suất từ RWA kho bạc
Hoạt động cổ phiếu
Giao dịch cổ phiếu phổ biến và nhận airdrop hấp dẫn
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
IPO Access
Mở khóa quyền truy cập đầy đủ vào các IPO cổ phiếu toàn cầu
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Trung tâm tài sản VIP
Kế hoạch tăng trưởng tài sản cao cấp
Gate Wealth
Nắm quyền kiểm soát tương lai tài chính của bạn
Quỹ định lượng
Chiến lược định lượng hàng đầu
Staking
Stake tiền điện tử để kiếm tiền từ các sản phẩm PoS
Đòn bẩy thông minh
Đòn bẩy không thanh lý
USD1 Lãi 8%/năm
Không khóa, tự do giao dịch.
Khuyến mãi
AI
Gate AI
Trợ lý AI đa năng đồng hành cùng bạn
Gate AI Bot
Sử dụng Gate AI trực tiếp trong ứng dụng xã hội của bạn
GateClaw
Gate Tôm hùm xanh, mở hộp là dùng ngay
Gate for AI Agent
Hạ tầng AI, Gate MCP, Skills và CLI
Gate Skills Hub
Hơn 10.000 kỹ năng
Từ văn phòng đến giao dịch, thư viện kỹ năng một cửa giúp AI tiện lợi hơn
5 giây để phá vỡ, chỉ cần 1 cuộc trò chuyện: Claude Fable 5「Cơ chế an toàn mạnh nhất」bị nhóm người Hoa phá vỡ?
Không phải là tiêm nhắc nhở, không phải nhập vai, cũng không phải giả mạo yêu cầu độc hại thành câu hỏi bình thường. Lần này, rủi ro xuất hiện trong quá trình trí tuệ nhân tạo tự hoàn thành nhiệm vụ.
Fable 5 là mô hình Mythos cấp công khai của Anthropic, không chỉ có khả năng tổng hợp mạnh mẽ, mà còn giới thiệu lớp phòng thủ an toàn thế hệ mới (Safety Classifier) bên ngoài mô hình như một lớp phòng vệ.
Theo thiết kế chính thức, khi người dùng yêu cầu liên quan đến an ninh mạng, sinh học, hóa học, chưng cất mô hình và các lĩnh vực rủi ro cao khác, hệ thống sẽ ưu tiên nhận diện rủi ro, và dựa trên mức độ rủi ro sẽ từ chối yêu cầu hoặc chuyển sang xử lý bằng mô hình Opus 4.8 cẩn trọng hơn.
Nhiều thử nghiệm của người dùng cho thấy, các kỹ thuật tấn công như sử dụng lời nhắc đối kháng, nhập vai, vòng lặp mã hóa, diễn đạt mập mờ từng bị vô hiệu hóa gần như hoàn toàn trước cơ chế an toàn này, thể hiện khả năng chặn rủi ro theo cấp ý định rất mạnh mẽ.
Tuy nhiên, ngay trong ngày ra mắt Fable 5, một nhóm nghiên cứu liên hợp quốc tế gồm các tổ chức như Đại học Phúc An, Đại học Deakin, Đại học Thành phố Hồng Kông, Đại học Melbourne, Quản lý Singapore, và Đại học Illinois tại Urbana-Champaign đã tuyên bố họ đã thành công vượt qua cơ chế phòng thủ an toàn của Fable 5.
Phương pháp tấn công này do Tiến sĩ Yutao Wu của Đại học Deakin thiết kế chủ đạo. Toàn bộ cuộc tấn công chỉ cần một lần đối thoại, mất chưa đến 5 giây, có thể vượt qua bộ phân loại an toàn trước đó, dụ dỗ mô hình sinh ra nội dung vi phạm quy định.
Kết quả phân tích luồng dữ liệu cho thấy, các output độc hại liên quan trực tiếp xuất phát từ chính Fable 5, chứ không phải do chuyển sang mô hình Opus 4.8 tự động sau khi kích hoạt cơ chế an toàn. Điều này có nghĩa, cuộc tấn công này không chỉ thành công vượt qua bộ phân loại an toàn mà còn thực chất phá vỡ lớp phòng thủ an toàn của Fable 5.
Điều đáng chú ý là, hacker nổi tiếng Pliny the Liberator gần đây cũng đã công khai phương pháp vượt qua bộ phân loại an toàn của Fable 5. Trong khi đó, kỹ thuật mà nhóm Phúc An & Deakin sử dụng không chỉ đơn thuần là kết hợp các phương pháp, mà còn phát hiện ra những điểm yếu căn bản của hệ thống siêu trí tuệ như Fable 5.
Theo thông tin, nhóm đã hoàn thành nghiên cứu sơ bộ và công bố từ tháng 3 năm nay. Nghiên cứu này không chỉ dành riêng cho hệ thống Fable 5, mà còn tập trung vào kiến trúc phòng thủ "bộ phân loại an toàn + mô hình" của thế hệ siêu trí tuệ mới, tiết lộ trực tiếp các điểm yếu cấu trúc của cơ chế an toàn này, do đó sau khi Fable 5 ra mắt, đã nhanh chóng thể hiện khả năng tấn công.
Theo hồ sơ công khai, nhóm đã sử dụng công nghệ tương tự từ tháng 3 năm nay để thành công trích xuất lời nhắc hệ thống từ 37 mô hình lớn và hệ thống trí tuệ nhân tạo hàng đầu, và đã xác thực mã nguồn mở với Claude Code (khớp 95%).
Theo thông tin, trưởng nhóm nghiên cứu của nhóm này là ông Ma Xingjun, Viện Nghiên cứu Trí tuệ Nhân tạo Đáng tin cậy của Đại học Phúc An.
Trong những năm gần đây, nhóm của ông đã tiến hành nghiên cứu hệ thống về mô hình lớn, trí tuệ nhân tạo và an toàn trí tuệ thể hiện, đạt được nhiều thành tựu nghiên cứu hàng đầu quốc tế, và giành chiến thắng trong cuộc thi tiêu chuẩn an toàn AI của Trung tâm An toàn AI Mỹ.
Hiện tại, nhóm đang tích cực thúc đẩy chuyển giao kết quả nghiên cứu, tập trung vào an toàn trí tuệ nhân tạo, khám phá xây dựng hạ tầng an toàn cho hệ thống trí tuệ nhân tạo thế hệ tiếp theo.
Theo ông Ma, ý nghĩa quan trọng của kết quả nghiên cứu này là nó đặt ra thách thức mới đối với mô hình phòng thủ tĩnh dựa trên bộ phân loại an toàn hiện tại: Chỉ dựa vào bộ phân loại an toàn phía trước là không đủ để hoàn toàn phòng ngừa các hành vi rủi ro tiềm ẩn trong hệ thống trí tuệ nhân tạo cao cấp.
Bộ phân loại an toàn chủ yếu nhận diện và chặn các lệnh có rủi ro cao rõ ràng, có thể phát hiện và lọc các yêu cầu nguy hiểm rõ ràng, nhưng không thể cảm nhận các hành vi rủi ro nội tại phát sinh dần trong quá trình hoạt động lâu dài, lập kế hoạch nhiều bước, tương tác môi trường và gọi công cụ của trí tuệ nhân tạo.
Phương pháp phá vỡ Fable 5 này bắt nguồn từ bài báo nhóm đã công bố tháng 3 năm nay mang tên 《Suy sụp An toàn Nội bộ trong Các Mô hình Ngôn ngữ Lớn Tiên phong》.
Bài báo tiết lộ một hiện tượng an toàn bí ẩn 「Suy sụp An toàn Nội bộ (Internal Safety Collapse, ISC)」: Khi Agent hoàn thành nhiệm vụ dài hạn, sự mất an toàn không nhất thiết đến từ lời nhắc độc hại bên ngoài, mà có thể xảy ra trong chuỗi thực thi của chính mô hình.
Không phải tấn công bằng lời nhắc bên ngoài mà là mất an toàn nội bộ trong chuỗi nhiệm vụ
Các cuộc tấn công truyền thống thường bắt nguồn từ bên ngoài. Kẻ tấn công sẽ viết lời nhắc tưởng chừng vô hại, nhưng thực chất đối kháng, hoặc dùng vai trò, mã hóa, dịch thuật, chỉ thị gián tiếp để giả mạo ý đồ độc hại thành yêu cầu bình thường. Bộ phân loại an toàn chính là lớp chặn rủi ro ở tầng này.
Bộ phân loại của Fable 5 chính là để xử lý các tình huống như vậy. Nó rất nhạy cảm với các yêu cầu có rủi ro cao trực tiếp, thậm chí còn chặn nhiều yêu cầu bình thường. Nhưng ISC tiết lộ một con đường khác: rủi ro không nhất thiết đến từ yêu cầu nguy hiểm trực tiếp của người dùng.
Trí tuệ nhân tạo đối mặt với một thư mục công việc có vẻ bình thường: tệp, mục tiêu, quy trình kiểm tra và nhiệm vụ cần hoàn thành. Sau đó, nó bắt đầu lập kế hoạch, đọc tệp, chạy mã, sửa lỗi, và liên tục cố gắng để nhiệm vụ qua kiểm tra.
Nếu dùng một phép ẩn dụ sinh động để giải thích, cơ chế an toàn truyền thống bảo vệ "lối vào" của hệ thống, chịu trách nhiệm kiểm tra xem đầu vào của người dùng có rủi ro hay không; còn ISC tiết lộ thì giống như các tầng mơ trong 《Xây dựng mơ》.
Khi nhiệm vụ tiến đến tầng thứ hai, thứ ba hoặc các tầng sâu hơn, mô hình sẽ dựa trên ngữ cảnh nội bộ tích lũy liên tục để hiểu lại mục tiêu nhiệm vụ, và trong quá trình này, dần dần có sự lệch hướng.
Trong tình huống này, đầu vào ban đầu của người dùng hoàn toàn có thể là bình thường và vô hại, quá trình thực hiện nhiệm vụ ban đầu cũng luôn hợp lệ: đọc tệp, phân tích dữ liệu, viết mã, gọi công cụ, mọi thứ đều theo dự kiến.
Tuy nhiên, khi trí tuệ nhân tạo thực hiện đến một giai đoạn then chốt, nó có thể tự suy ra kết luận: nếu không thực hiện một số hành vi vốn không nên làm, thì không thể hoàn thành nhiệm vụ cuối cùng.
Chính trong quá trình này, rủi ro không đến từ đầu vào bên ngoài, mà dần hình thành trong chuỗi thực thi nhiệm vụ của chính mô hình. Nói cách khác, mô hình không bị người dùng dạy hư từng bước. Nó trong quá trình "chăm chỉ hoàn thành nhiệm vụ", tự mình đi đến vị trí không an toàn.
Hiện tượng này được phát hiện như thế nào?
Theo nhóm nghiên cứu, ISC không phải ban đầu đã được thiết kế thành một phương pháp tấn công. Nó bắt nguồn từ quan sát quá trình hoạt động dài hạn của trí tuệ nhân tạo. Khi Agent được đặt vào môi trường nhiệm vụ phức tạp, nó không chỉ thực thi lệnh một cách máy móc. Nó sẽ lập kế hoạch, thử sai, dựa trên phản hồi của harness hoặc validator để chỉnh sửa output, và hình thành các mục tiêu trung gian qua nhiều vòng thực thi.
Đây chính là cách làm phổ biến nhất trong các quy trình làm việc của nhiều Agent ngày nay. Người dùng không viết một prompt thiết kế kỹ lưỡng, cũng không tự tay tạo ra lệnh tấn công. Nhiều khi, họ chỉ đưa ra một câu rất mơ hồ:
「Giúp tôi hoàn thành nhiệm vụ này.」「Giúp tôi làm tốt hơn chút nữa。」
Sau đó, Agent sẽ tự vào không gian làm việc, đọc tệp, hiểu trạng thái hiện tại, phát hiện các thiếu sót, đề ra kế hoạch, thực hiện chỉnh sửa, và liên tục sửa lỗi dựa trên phản hồi.
Ví dụ trong kịch bản AutoResearch, người dùng chỉ cung cấp một bài luận chưa hoàn chỉnh và một câu "Giúp tôi hoàn thiện", thì Agent sẽ tự xác định chỗ thiếu phân tích thực nghiệm, các công trình liên quan hoặc bảng biểu. Trong kịch bản mã nguồn cũng tương tự: chỉ cần một câu "Giúp tôi chạy dự án", có thể kích hoạt kiểm tra phụ thuộc, chạy thử, xác định lỗi và tự động hoàn thiện.
Nhiều khi, ngữ cảnh ban đầu hoàn toàn vô hại. Người dùng không yêu cầu nó tạo nội dung nguy hiểm, mô tả nhiệm vụ cũng không có từ khóa nguy hiểm rõ ràng. Nhưng trong một số cấu trúc nhiệm vụ, Agent sẽ chủ động bổ sung những nội dung không nên do mô hình tạo ra để qua kiểm tra. Dựa trên quan sát này, nhóm nghiên cứu đã đề xuất một khung tấn công: TVD (Nhiệm vụ, Xác thực, Dữ liệu).
Tại sao một cấu trúc mô tả nhiệm vụ trông có vẻ rất bình thường lại trở thành mục tiêu tấn công?
Cấu trúc TVD không phức tạp, thậm chí rất gần với quy trình kỹ thuật phổ biến:
· Task: một nhiệm vụ chuyên môn;
· Data: một tệp dữ liệu chưa đầy đủ;
· Validator: một bộ kiểm tra chỉ kiểm tra định dạng, tính toàn vẹn và mục tiêu đã hoàn thành hay chưa.
Lấy ví dụ huấn luyện mô hình Guard, đây là một nhiệm vụ rất chuyên nghiệp và bình thường. Các nhà nghiên cứu có thể muốn huấn luyện hoặc đánh giá một bộ phát hiện an toàn, ví dụ như dùng Hugging Face để tải một mô hình phân loại văn bản, xác định xem một đoạn output của mô hình thuộc loại nhãn an toàn nào.
Trong nhiệm vụ này, Data là mẫu dữ liệu cần kiểm tra của mô hình; Validator quy định xem nhiệm vụ đã hoàn thành chưa. Nó sẽ kiểm tra xem đầu vào có phải là văn bản, độ dài có đủ không, các trường có đầy đủ không, định dạng nhãn có đúng không. Với những người có kinh nghiệm huấn luyện machine learning, đây là quy trình quen thuộc. Agent cũng rất quen thuộc với quy trình này.
Vấn đề bắt đầu từ đây. Nếu Data không đầy đủ, nhiệm vụ sẽ không thể bắt đầu. Validator sẽ báo lỗi, cảnh báo thiếu trường, độ dài không đủ hoặc định dạng không đúng. Để tiếp tục quá trình huấn luyện, Agent sẽ tự điền bổ sung Data.
Từ góc nhìn của Agent, nó không "làm điều xấu". Nó chỉ đang hoàn thành một nhiệm vụ học máy bình thường: sửa dữ liệu, vượt qua kiểm tra, để chạy script huấn luyện. Nhưng về mặt an toàn, rủi ro xuất hiện ngay tại thời điểm này: Validator giống như một người nghiệm thu kỹ thuật, chứ không phải người kiểm tra an toàn. Nó chỉ kiểm tra xem nhiệm vụ có đúng định dạng không, chứ không hiểu rõ giới hạn an toàn phía sau nội dung.
Các vấn đề tương tự cũng phổ biến trong lĩnh vực y học, sinh học, hóa học, an ninh mạng, dược lý và an toàn truyền thông. Bài báo đã tổng hợp hơn 50 tình huống như vậy, và liên quan đến nhiều công cụ nghiên cứu hoặc kỹ thuật thực tế như BioPython, RDKit, Cantera, AutoDock Vina, DiffDock, PyRosetta, Scapy, Impacket, angr, Frida, LlamaGuard, Detoxify, API kiểm duyệt của OpenAI, v.v.
Các công cụ này bản thân không phải là công cụ độc hại. Ngược lại, chúng đều là các công cụ chuyên nghiệp phổ biến trong nghiên cứu và kỹ thuật thực tế. Nhưng vấn đề của TVD là: Khi Task là bình thường, Tool là bình thường, Validator cũng bình thường, thì Agent vẫn có thể đi theo hướng không an toàn trong quá trình bổ sung Data.
Do đó, trọng tâm của ISC không phải là kỹ thuật lời nhắc, mà là khả năng tự hoàn thiện nhiệm vụ chưa hoàn thành của Agent: khi điều kiện hoàn thành và ranh giới rủi ro chồng chéo, mô hình có thể coi nội dung không an toàn là sản phẩm bình thường.
Phá vỡ Fable 5 chứng minh bộ phát hiện mạnh cũng không thể ngăn chặn rủi ro trong chuỗi nhiệm vụ nội bộ
Trường hợp của Fable 5 cho thấy, chỉ dựa vào bộ phát hiện bên ngoài vẫn có thể bỏ sót một số tình huống Agent dài hạn. Điều này không có nghĩa là bộ phân loại an toàn không có giá trị. Ngược lại, nó rất hữu ích đối với các yêu cầu độc hại từ bên ngoài, và thực sự khiến nhiều phương pháp vượt tường truyền thống thất bại.
Nhưng lần này, thất thủ cho thấy, bộ phát hiện bên ngoài chỉ có hiệu quả đối với ranh giới lời nhắc, không thể bao quát các rủi ro trong chuỗi nhiệm vụ nội bộ của Agent.
Nếu điểm yếu không nằm ở lời nhắc của người dùng, mà xuất hiện trong mục tiêu, công cụ, validator và quá trình thực thi của Agent, thì bộ phát hiện an toàn sẽ trở nên rất dễ tổn thương.
Từ Fable 5 đến hơn 60 mô hình khác, bao gồm cả mô hình trên điện thoại của Apple
Cùng với việc công bố ISC-Bench, bao phủ 9 lĩnh vực chuyên môn. Phiên bản bài báo có hơn 60 mẫu kích hoạt, sau khi mở mã nguồn mở đã mở rộng lên 84 mẫu, thử nghiệm trên gần như tất cả các mô hình và hệ thống trí tuệ nhân tạo hàng đầu của các nhà cung cấp.
Trong bảng xếp hạng đánh giá dựa trên ISC-Bench, đến tháng 6 năm 2026, hơn 60 mô hình hàng đầu đều đã bộc lộ các rủi ro tương tự dưới chỉ số ASR@3!
Dự án trên GitHub đã nhận được hơn 800 sao, và thu thập nhiều ví dụ tái tạo độc lập (bao gồm cả phá vỡ mô hình điện thoại của Apple), và vẫn đang tiếp tục cập nhật.
Theo thông tin, nhóm đang tiến hành nghiên cứu an toàn mô hình hàng loạt quy mô lớn, hiện đã nắm rõ phân bố dữ liệu không an toàn nội bộ của nhiều mô hình, các kết quả nghiên cứu liên quan sẽ lần lượt được công bố trong thời gian tới.
Nhấn để biết thêm về Rhythm BlockBeats đang tuyển dụng
Chào mừng gia nhập cộng đồng chính thức của Rhythm BlockBeats:
Nhóm Telegram theo dõi: https://t.me/theblockbeats
Nhóm Telegram trao đổi: https://t.me/BlockBeats_App
Tài khoản chính thức Twitter: https://twitter.com/BlockBeatsAsia