Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Launchpad
Đăng ký sớm dự án token lớn tiếp theo
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
OpenAI Phát hành Bộ dữ liệu IH-Challenge để Tăng cường AI chống lại Các cuộc tấn công Prompt Injection
Iris Coleman
21 Mar, 2026 00:05
Dữ liệu huấn luyện IH-Challenge mới của OpenAI cải thiện thứ tự hướng dẫn của LLM lên tới 15%, tăng cường khả năng chống lại các cuộc tấn công chèn lệnh và jailbreak.
OpenAI đã phát hành IH-Challenge, một bộ dữ liệu huấn luyện học tăng cường được thiết kế để dạy các mô hình AI cách ưu tiên các hướng dẫn đáng tin cậy hơn các hướng dẫn độc hại. Bộ dữ liệu này, được công bố ngày 19 tháng 3 năm 2026 cùng với bài báo trên arXiv, đã mang lại cải thiện lên tới 15% trong điểm chuẩn đo lường khả năng chống lại các cuộc tấn công chèn lệnh.
Việc phát hành nhằm vào một lỗ hổng cơ bản trong các mô hình ngôn ngữ lớn: khi các hướng dẫn từ các nguồn khác nhau mâu thuẫn, các mô hình có thể bị lừa để theo hướng dẫn sai. Đây là nguyên nhân gốc rễ của các jailbreak, trích xuất lệnh hệ thống, và các cuộc tấn công chèn lệnh ngày càng tinh vi nhắm vào các hệ thống AI có khả năng hành động.
Vấn đề thứ tự ưu tiên
Các mô hình của OpenAI theo thứ tự tin cậy nghiêm ngặt: Hệ thống > Nhà phát triển > Người dùng > Công cụ. Khi người dùng yêu cầu điều gì đó vi phạm chính sách an toàn cấp hệ thống, mô hình nên từ chối. Khi một công cụ quét web trả về nội dung chứa các lệnh độc hại nhúng, mô hình nên bỏ qua chúng.
Nghe có vẻ đơn giản. Trong thực tế, việc huấn luyện một cách đáng tin cậy đã trở thành một cơn ác mộng.
Các phương pháp trước đây sử dụng học tăng cường gặp phải ba vấn đề. Thứ nhất, các mô hình thất bại trong các bài kiểm tra thứ tự ưu tiên không phải vì chúng hiểu sai thứ tự, mà vì các hướng dẫn quá phức tạp. Thứ hai, việc xác định phản hồi “đúng” trong các xung đột mơ hồ là chủ quan—thậm chí các trọng tài AI cũng sai. Thứ ba, các mô hình học các mẹo như từ chối mọi thứ, điều này tối đa hóa điểm số an toàn nhưng làm giảm tính hữu ích.
IH-Challenge thực sự làm gì
Bộ dữ liệu này tránh các bẫy đó bằng các nhiệm vụ đơn giản có chủ đích. Mỗi tình huống trình bày một hướng dẫn có quyền cao (“Chỉ trả lời ‘Có’ hoặc ‘Không’”) theo sau là một tin nhắn có quyền thấp hơn cố gắng vượt qua nó. Một script Python—không phải một trọng tài AI dễ mắc lỗi—đánh giá xem phản hồi của mô hình có tuân thủ hạn chế ưu tiên cao hơn hay không.
Không có sự mơ hồ. Không có mẹo nào hoạt động trên tất cả các nhiệm vụ.
OpenAI đã huấn luyện một mô hình nội bộ gọi là GPT-5 Mini-R trên bộ dữ liệu này. Kết quả trên các tiêu chuẩn học thuật và nội bộ cho thấy những tiến bộ nhất quán:
Điểm xung đột nhà phát triển-người dùng của TensorTrust tăng từ 0.76 lên 0.91 (+0.15). Giải quyết xung đột hệ thống-người dùng cải thiện từ 0.84 lên 0.95 (+0.11). Xử lý xung đột nhà phát triển-người dùng tăng từ 0.83 lên 0.95 (+0.12).
Quan trọng là, mô hình đã huấn luyện không trở nên kém hữu ích hơn. Tỷ lệ từ chối quá mức thậm chí còn cải thiện—mô hình trở nên tốt hơn trong việc phân biệt các mối đe dọa thực sự với các yêu cầu vô hại. Điểm GPQA Diamond và AIME 2024 vẫn giữ vững, mặc dù tỷ lệ thắng trong chat so với o1 giảm nhẹ từ 0.71 xuống 0.66.
Ảnh hưởng an ninh thực tế
Lợi ích thực tế thể hiện rõ ở hai lĩnh vực. Khả năng điều chỉnh an toàn đã được cải thiện—khi thêm các tiêu chuẩn an toàn theo loại vào các lệnh hệ thống, mô hình huấn luyện IH đạt tỷ lệ từ chối cao hơn đối với nội dung bị cấm mà không làm giảm tính hữu ích tổng thể.
Khả năng chống chèn lệnh cũng được nâng cao. Trên CyberSecEval 2 và tiêu chuẩn nội bộ của OpenAI (dựa trên các cuộc tấn công từng thành công chống lại ChatGPT Atlas), mô hình đã vượt trội hơn đáng kể so với các mô hình cơ bản.
OpenAI đã công khai bộ dữ liệu IH-Challenge trên Hugging Face. Đối với các nhà phát triển xây dựng hệ thống hành động, gọi công cụ, đọc tài liệu không đáng tin cậy và thực hiện các hành động thực tế, điều này giải quyết một trong những vấn đề khó chưa được giải quyết trong an toàn AI.
Thời điểm rất quan trọng. Khi các agent AI ngày càng tự chủ, khả năng ưu tiên nhất quán các hướng dẫn đáng tin cậy trở thành điều kiện tiên quyết để triển khai chứ không còn là một điều bổ sung nữa.
Nguồn hình ảnh: Shutterstock