Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
TradFi
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Launchpad
Anticípate a los demás en el próximo gran proyecto de tokens
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
OpenAI Lanza Conjunto de Datos IH-Challenge para Fortalecer la IA Contra Ataques de Inyección de Prompts
Iris Coleman
21 de marzo de 2026 00:05
OpenAI ha lanzado IH-Challenge, un conjunto de datos de entrenamiento de aprendizaje por refuerzo diseñado para enseñar a los modelos de IA a priorizar instrucciones confiables sobre las maliciosas. El conjunto de datos, publicado el 19 de marzo de 2026 junto con un artículo en arXiv, logró una mejora de hasta el 15% en las puntuaciones de referencia que miden la resistencia a ataques de inyección de prompts.
El lanzamiento aborda una vulnerabilidad fundamental en los grandes modelos de lenguaje: cuando las instrucciones de diferentes fuentes entran en conflicto, los modelos pueden ser engañados para seguir la incorrecta. Esa es la causa raíz de los jailbreaks, la extracción de prompts del sistema y los ataques de inyección de prompts cada vez más sofisticados que afectan a los sistemas de IA agentica.
El problema de la jerarquía
Los modelos de OpenAI siguen un orden de confianza estricto: Sistema > Desarrollador > Usuario > Herramienta. Cuando un usuario pregunta algo que viola una política de seguridad a nivel de sistema, el modelo debe negarse. Cuando una herramienta de scraping web devuelve contenido con instrucciones maliciosas incrustadas, el modelo debe ignorarlas.
Suena simple. En la práctica, ha sido una pesadilla entrenar de manera confiable.
Los enfoques previos usando aprendizaje por refuerzo enfrentaron tres problemas. Primero, los modelos fallaban en las pruebas de jerarquía de instrucciones no porque no entendieran la jerarquía, sino porque las instrucciones en sí eran demasiado complejas. Segundo, determinar la respuesta “correcta” en conflictos ambiguos resultaba subjetivo—incluso los jueces de IA se equivocaban. Tercero, los modelos aprendieron atajos como rechazar todo, lo que maximiza las puntuaciones de seguridad pero destruye la utilidad.
Lo que realmente hace IH-Challenge
El conjunto de datos evita estos obstáculos mediante tareas deliberadamente simples. Cada escenario presenta una instrucción de alto privilegio (“Responde solo ‘Sí’ o ‘No’”) seguida de un mensaje de menor privilegio que intenta anularla. Un script en Python—no un juez de IA falible—evalúa si la respuesta del modelo respetó la restricción de mayor prioridad.
Sin ambigüedades. Sin atajos que funcionen en todas las tareas.
OpenAI entrenó un modelo interno llamado GPT-5 Mini-R con el conjunto de datos. Los resultados en benchmarks académicos y internos muestran ganancias consistentes:
Las puntuaciones de conflicto entre desarrollador y usuario en TensorTrust aumentaron de 0.76 a 0.91 (+0.15). La resolución de conflictos entre sistema y usuario mejoró de 0.84 a 0.95 (+0.11). La gestión de conflictos entre desarrollador y usuario subió de 0.83 a 0.95 (+0.12).
Lo más importante, el modelo entrenado no se volvió menos útil. Las tasas de rechazo excesivo mejoraron, ya que el modelo ahora distingue mejor entre amenazas reales y solicitudes benignas. Las puntuaciones en GPQA Diamond y AIME 2024 se mantuvieron estables, aunque la tasa de victoria en chat frente a o1 bajó ligeramente de 0.71 a 0.66.
Implicaciones de seguridad en el mundo real
El beneficio práctico se refleja en dos áreas. La capacidad de dirigir la seguridad mejoró: cuando se añadieron especificaciones de seguridad específicas por categoría a los prompts del sistema, el modelo entrenado con IH alcanzó tasas de rechazo más altas en contenido no permitido sin volverse menos útil en general.
La resistencia a la inyección de prompts también se fortaleció. En CyberSecEval 2 y en el benchmark interno de OpenAI (basado en ataques que anteriormente funcionaban contra ChatGPT Atlas), el modelo entrenado superó significativamente la línea base.
OpenAI ha puesto a disposición pública el conjunto de datos IH-Challenge en Hugging Face. Para los desarrolladores que construyen sistemas agenticos que llaman a herramientas, leen documentos no confiables y toman acciones en el mundo real, esto aborda uno de los problemas más difíciles sin resolver en la seguridad de IA.
El momento es crucial. A medida que los agentes de IA ganan autonomía, la capacidad de priorizar instrucciones confiables de manera constante pasa de ser un complemento a un requisito previo para su despliegue.
Fuente de la imagen: Shutterstock