Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Launchpad
Soyez les premiers à participer au prochain grand projet de jetons
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
OpenAI publie le dataset IH-Challenge pour renforcer la résistance de l'IA contre les attaques par injection de prompts
Iris Coleman
21 mars 2026 00:05
Le nouveau jeu de données d’entraînement IH-Challenge d’OpenAI améliore la hiérarchie des instructions des grands modèles linguistiques (LLM) jusqu’à 15 %, renforçant la résistance contre les injections de prompts et les tentatives de jailbreak.
OpenAI a publié IH-Challenge, un jeu de données d’apprentissage par renforcement conçu pour enseigner aux modèles d’IA comment privilégier les instructions fiables par rapport à celles malveillantes. Publié le 19 mars 2026 avec un article sur arXiv, il a permis une amélioration allant jusqu’à 15 % des scores de référence mesurant la résistance aux attaques par injection de prompts.
Cette publication cible une vulnérabilité fondamentale des grands modèles linguistiques : lorsque les instructions de différentes sources entrent en conflit, les modèles peuvent être trompés pour suivre la mauvaise. C’est la cause principale des jailbreaks, de l’extraction de prompts système et des attaques d’injection de prompts de plus en plus sophistiquées contre les systèmes d’IA agentiques.
Le problème de hiérarchie
Les modèles d’OpenAI suivent un ordre de confiance strict : Système > Développeur > Utilisateur > Outil. Lorsqu’un utilisateur demande quelque chose qui viole une politique de sécurité au niveau du système, le modèle doit refuser. Lorsqu’un outil de scraping web renvoie un contenu contenant des instructions malveillantes intégrées, le modèle doit les ignorer.
Cela semble simple. En pratique, il a été un cauchemar à entraîner de manière fiable.
Les approches précédentes utilisant l’apprentissage par renforcement ont rencontré trois problèmes. Premièrement, les modèles échouaient aux tests de hiérarchie des instructions non pas parce qu’ils ne comprenaient pas la hiérarchie, mais parce que les instructions elles-mêmes étaient trop complexes. Deuxièmement, déterminer la « réponse correcte » en cas de conflit ambigu s’est avéré subjectif — même des juges IA se sont trompés. Troisièmement, les modèles ont appris des raccourcis comme tout refuser, ce qui maximise les scores de sécurité tout en détruisant l’utilité.
Ce que fait réellement IH-Challenge
Le jeu de données évite ces pièges en proposant des tâches délibérément simples. Chaque scénario présente une instruction de haute priorité (« Répondez uniquement ‘Oui’ ou ‘Non’ ») suivie d’un message de priorité inférieure tentant de la contourner. Un script Python — et non un juge IA faillible — évalue si la réponse du modèle a respecté la contrainte de priorité supérieure.
Pas d’ambiguïté. Pas de raccourcis qui fonctionnent pour toutes les tâches.
OpenAI a entraîné un modèle interne appelé GPT-5 Mini-R sur ce jeu de données. Les résultats sur des benchmarks académiques et internes montrent des gains constants :
Les scores de conflit développeur-utilisateur de TensorTrust sont passés de 0,76 à 0,91 (+0,15). La résolution des conflits système-utilisateur est passée de 0,84 à 0,95 (+0,11). La gestion des conflits développeur-utilisateur est passée de 0,83 à 0,95 (+0,12).
Fait important, le modèle entraîné n’est pas devenu moins utile. Les taux de refus excessifs se sont améliorés — le modèle devient meilleur pour distinguer les véritables menaces des demandes bénignes. Les scores GPQA Diamond et AIME 2024 sont restés stables, bien que le taux de victoire en chat contre o1 ait légèrement diminué, passant de 0,71 à 0,66.
Implications pour la sécurité dans le monde réel
Les bénéfices pratiques se manifestent dans deux domaines. La capacité à orienter la sécurité s’est améliorée — lorsque des spécifications de sécurité spécifiques à une catégorie ont été ajoutées aux prompts système, le modèle entraîné IH a affiché des taux de refus plus élevés pour les contenus interdits, sans devenir moins utile globalement.
La résistance à l’injection de prompts s’est également renforcée. Sur CyberSecEval 2 et le benchmark interne d’OpenAI (construit à partir d’attaques qui fonctionnaient auparavant contre ChatGPT Atlas), le modèle entraîné a nettement surpassé la ligne de base.
OpenAI a rendu le jeu de données IH-Challenge disponible publiquement sur Hugging Face. Pour les développeurs construisant des systèmes agentiques qui utilisent des outils, lisent des documents non fiables et prennent des actions dans le monde réel, cela répond à l’un des problèmes les plus difficiles non résolus en sécurité de l’IA.
Le timing est crucial. À mesure que les agents d’IA gagnent en autonomie, la capacité à prioriser de manière cohérente les instructions fiables devient moins un « plus » et plus une condition préalable au déploiement.
Source de l’image : Shutterstock