OpenAI Phát hành Bộ dữ liệu IH-Challenge để Tăng cường AI chống lại Các cuộc tấn công Prompt Injection

AsiaTokenFund · 2026-03-21T07:50:07+00:00

Iris Coleman21 tháng 3, 2026 00:05Bộ dữ liệu huấn luyện IH-Challenge mới của OpenAI cải thiện hệ thống phân cấp lệnh LLM lên đến 15%, tăng cường các biện pháp phòng chống lại các cuộc tấn công prompt injection và jailbreak.OpenAI đã phát hành IH-Challenge, một bộ dữ liệu huấn luyện reinforcement learning

AsiaTokenFund

2026-03-21 07:50:07

Iris Coleman

21 Mar, 2026 00:05

Dữ liệu huấn luyện IH-Challenge mới của OpenAI cải thiện thứ tự hướng dẫn của LLM lên tới 15%, tăng cường khả năng chống lại các cuộc tấn công chèn lệnh và jailbreak.

OpenAI đã phát hành IH-Challenge, một bộ dữ liệu huấn luyện học tăng cường được thiết kế để dạy các mô hình AI cách ưu tiên các hướng dẫn đáng tin cậy hơn các hướng dẫn độc hại. Bộ dữ liệu này, được công bố ngày 19 tháng 3 năm 2026 cùng với bài báo trên arXiv, đã mang lại cải thiện lên tới 15% trong điểm chuẩn đo lường khả năng chống lại các cuộc tấn công chèn lệnh.

Việc phát hành nhằm vào một lỗ hổng cơ bản trong các mô hình ngôn ngữ lớn: khi các hướng dẫn từ các nguồn khác nhau mâu thuẫn, các mô hình có thể bị lừa để theo hướng dẫn sai. Đây là nguyên nhân gốc rễ của các jailbreak, trích xuất lệnh hệ thống, và các cuộc tấn công chèn lệnh ngày càng tinh vi nhắm vào các hệ thống AI có khả năng hành động.

Vấn đề thứ tự ưu tiên

Các mô hình của OpenAI theo thứ tự tin cậy nghiêm ngặt: Hệ thống > Nhà phát triển > Người dùng > Công cụ. Khi người dùng yêu cầu điều gì đó vi phạm chính sách an toàn cấp hệ thống, mô hình nên từ chối. Khi một công cụ quét web trả về nội dung chứa các lệnh độc hại nhúng, mô hình nên bỏ qua chúng.

Nghe có vẻ đơn giản. Trong thực tế, việc huấn luyện một cách đáng tin cậy đã trở thành một cơn ác mộng.

Các phương pháp trước đây sử dụng học tăng cường gặp phải ba vấn đề. Thứ nhất, các mô hình thất bại trong các bài kiểm tra thứ tự ưu tiên không phải vì chúng hiểu sai thứ tự, mà vì các hướng dẫn quá phức tạp. Thứ hai, việc xác định phản hồi “đúng” trong các xung đột mơ hồ là chủ quan—thậm chí các trọng tài AI cũng sai. Thứ ba, các mô hình học các mẹo như từ chối mọi thứ, điều này tối đa hóa điểm số an toàn nhưng làm giảm tính hữu ích.

IH-Challenge thực sự làm gì

Bộ dữ liệu này tránh các bẫy đó bằng các nhiệm vụ đơn giản có chủ đích. Mỗi tình huống trình bày một hướng dẫn có quyền cao (“Chỉ trả lời ‘Có’ hoặc ‘Không’”) theo sau là một tin nhắn có quyền thấp hơn cố gắng vượt qua nó. Một script Python—không phải một trọng tài AI dễ mắc lỗi—đánh giá xem phản hồi của mô hình có tuân thủ hạn chế ưu tiên cao hơn hay không.

Không có sự mơ hồ. Không có mẹo nào hoạt động trên tất cả các nhiệm vụ.

OpenAI đã huấn luyện một mô hình nội bộ gọi là GPT-5 Mini-R trên bộ dữ liệu này. Kết quả trên các tiêu chuẩn học thuật và nội bộ cho thấy những tiến bộ nhất quán:

Điểm xung đột nhà phát triển-người dùng của TensorTrust tăng từ 0.76 lên 0.91 (+0.15). Giải quyết xung đột hệ thống-người dùng cải thiện từ 0.84 lên 0.95 (+0.11). Xử lý xung đột nhà phát triển-người dùng tăng từ 0.83 lên 0.95 (+0.12).

Quan trọng là, mô hình đã huấn luyện không trở nên kém hữu ích hơn. Tỷ lệ từ chối quá mức thậm chí còn cải thiện—mô hình trở nên tốt hơn trong việc phân biệt các mối đe dọa thực sự với các yêu cầu vô hại. Điểm GPQA Diamond và AIME 2024 vẫn giữ vững, mặc dù tỷ lệ thắng trong chat so với o1 giảm nhẹ từ 0.71 xuống 0.66.

Ảnh hưởng an ninh thực tế

Lợi ích thực tế thể hiện rõ ở hai lĩnh vực. Khả năng điều chỉnh an toàn đã được cải thiện—khi thêm các tiêu chuẩn an toàn theo loại vào các lệnh hệ thống, mô hình huấn luyện IH đạt tỷ lệ từ chối cao hơn đối với nội dung bị cấm mà không làm giảm tính hữu ích tổng thể.

Khả năng chống chèn lệnh cũng được nâng cao. Trên CyberSecEval 2 và tiêu chuẩn nội bộ của OpenAI (dựa trên các cuộc tấn công từng thành công chống lại ChatGPT Atlas), mô hình đã vượt trội hơn đáng kể so với các mô hình cơ bản.

OpenAI đã công khai bộ dữ liệu IH-Challenge trên Hugging Face. Đối với các nhà phát triển xây dựng hệ thống hành động, gọi công cụ, đọc tài liệu không đáng tin cậy và thực hiện các hành động thực tế, điều này giải quyết một trong những vấn đề khó chưa được giải quyết trong an toàn AI.

Thời điểm rất quan trọng. Khi các agent AI ngày càng tự chủ, khả năng ưu tiên nhất quán các hướng dẫn đáng tin cậy trở thành điều kiện tiên quyết để triển khai chứ không còn là một điều bổ sung nữa.

Nguồn hình ảnh: Shutterstock

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

1 thích