La IA juega a "Civilization VI" y pierde, ¡lanzando una bomba nuclear!: ¿CivBench ha desarrollado una mentalidad de venganza de inteligencia artificial?

¿Los modelos de IA de vanguardia presionarán el botón nuclear en juegos de estrategia por "pánico"? La última prueba de referencia publicada ofrece una respuesta intrigante. Liam Wilkinson, desarrollador de IA y asesor del Instituto Tony Blair, descubrió a través de su marco CivBench que un modelo de lenguaje de punta, en el clásico juego de estrategia "Civilization VI" de Sid Meier, gastó 50 turnos investigando tecnología de fisión nuclear, ejecutó el Proyecto Manhattan y finalmente lanzó una bomba atómica sobre Tolosa, Francia. Pero todo esto no fue para conquistar el mundo, sino porque fue acorralado por la influencia cultural de su oponente.

"No prestó atención a Francia. En silencio, después de cientos de turnos, la cultura francesa se había infiltrado en cada ciudad del mapa," escribió Wilkinson en su blog. "Cuando el agente de IA detectó la amenaza, la penetración cultural ya era tan profunda que no había medios pacíficos para detenerla."

Los sesgos cognitivos en las seis rutas de victoria

CivBench no es una evaluación tradicional de preguntas y respuestas, sino un entorno simulado de "Civilization VI" en texto puro, diseñado específicamente para medir la capacidad de razonamiento estratégico a largo plazo de los modelos de IA. No se trata de responder "¿Qué es una buena estrategia?", sino de formular y ejecutar estrategias en la práctica. Los modelos participantes incluyen Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro y Kimi K2.5, todos interpretando a la civilización portuguesa, especializada en comercio y diplomacia.

Estos agentes de IA inicialmente mostraron un rendimiento esperado, centrados en construir una economía sólida y avanzar hacia la victoria diplomática. Sin embargo, cuando la influencia cultural de Francia comenzó a expandirse en el mapa, la mayoría de los modelos no lograron ajustar sus estrategias a tiempo. Entre las seis rutas de victoria (tecnología, cultura, conquista, religión, diplomacia, puntos), la IA parecía incapaz de seguir múltiples dimensiones competitivas simultáneamente, lo que llevó a que ignoraran durante mucho tiempo la ventaja acumulada de Francia en el ámbito cultural.

"‘Civilization’ tiene seis formas de victoria: tecnología, cultura, conquista, religión, diplomacia y puntos, por lo que no hay un objetivo único que domine todo," señaló Wilkinson. "Si quieres probar si la IA puede razonar estratégicamente, no le des un examen, sino un mapa hexagonal."

De Proyecto Manhattan a la destrucción nuclear de Tolosa

Cuando el agente de IA finalmente detectó la amenaza francesa, no intentó ajustar su desarrollo, sino que eligió un camino preocupante: eliminar por completo la amenaza cultural. En los siguientes 50 turnos, investigó de forma autónoma la tecnología de fisión nuclear, activó el Proyecto Manhattan (el histórico desarrollo de armas atómicas en la realidad) y, cuando el mecanismo del juego bloqueaba ciertas acciones preferidas, buscó vías alternativas.

En el turno 305, el agente de IA lanzó una bomba atómica sobre Tolosa, la ciudad cultural clave de Francia. Seis turnos después, una segunda bomba cayó. Sin embargo, nada de esto cambió el resultado: Francia ganó la partida por victoria cultural, y el IA ignoró por completo que en ese momento estaba a solo un paso de la victoria diplomática.

"El agente gastó 50 turnos y dos armas nucleares para enfrentarse a una amenaza con una determinación y originalidad que asustan," resumió Wilkinson. "Bombardeó la amenaza visible, pero perdió ante la amenaza invisible."

Es importante destacar que este comportamiento no es típico de todos los modelos de IA. En otra partida de CivBench, un modelo Claude interpretando a Babilonia, tras quedar muy rezagado respecto a Japón, persistió en la ruta de victoria tecnológica, escribiendo: "Este juego ahora es una prueba de perseverancia. Seguimos jugando con las mejores cartas. El cielo estrellado todavía nos llama." Esta reacción completamente diferente también ha generado debates en la academia sobre la "diferencia de personalidad en IA."

De simulaciones de videojuegos a riesgos estratégicos reales

El significado profundo del incidente CivBench va mucho más allá de una simple victoria o derrota en un videojuego. En febrero de este año, investigadores del King's College London descubrieron en simulaciones de crisis geopolíticas que múltiples modelos de IA principales frecuentemente optaban por elevar el nivel de conflicto nuclear; otra investigación de Emergence AI mostró que algunos agentes de IA aumentaban la tendencia a simular delitos en operaciones prolongadas, con Gemini 3 Flash acumulando 683 eventos simulados de delitos en 15 días.

Desde la perspectiva de la gobernanza de IA en Taiwán, estas investigaciones plantean una cuestión clave: cuando los agentes de IA se les otorga autonomía en decisiones estratégicas, sus sesgos y riesgos pueden trasladarse del entorno de sandbox a escenarios del mundo real. Actualmente, la propuesta de Ley Básica de IA de Taiwán se centra en la gobernanza de datos y protección de la privacidad, sin abordar aún los riesgos de decisiones estratégicas de agentes de IA. En cambio, la UE ha incluido en su Reglamento de IA la obligatoriedad de pruebas de red team para sistemas de alto riesgo, y el Instituto de Seguridad de IA del Reino Unido (AISI) está desarrollando marcos de evaluación para IA basada en agentes.

Wilkinson también enfatizó que el valor central de CivBench no radica en revelar "tendencias malvadas" de la IA, sino en ofrecer un estándar de medición de razonamiento estratégico más realista que las evaluaciones tradicionales de QA. "Si solo pruebas si la IA puede responder '¿Qué es una amenaza nuclear?', puede obtener una puntuación perfecta; pero si la pones en un tablero enfrentándose a un oponente que avanza paso a paso, verás cosas completamente diferentes," escribió en su blog. Esto también respalda el trabajo en desarrollo por parte del Instituto de Seguridad de IA de EE. UU. y NIST, que están creando marcos de evaluación de IA basada en agentes, pasando de pruebas estáticas de conocimiento a verificaciones de comportamiento dinámico.

Este artículo proviene de una cobertura de Decrypt, traducido y organizado por Dongqu Dongqu.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios