Un exasesor del ex primer ministro británico utilizó "Civilization 6" para probar el razonamiento a largo plazo de la IA, descubriendo que debido a puntos ciegos de información y una excesiva obstinación, el modelo abandonó las ventajas diplomáticas para fabricar bombas nucleares y bombardear a sus oponentes, revelando las limitaciones técnicas de su aplicación en la gestión política real.

Cuando la IA juega a Civilization VI, ¡lanzó 2 bombas nucleares!

¡La IA eligió fabricar bombas nucleares en "Civilization 6"! Recientemente, un desarrollador de IA utilizó el estándar de referencia CivBench para desafiar a los modelos de lenguaje grande (LLM) en el juego de estrategia "Civilization VI". En el experimento, aunque el agente de IA tenía una ventaja económica absoluta, enfrentado a una amenaza, optó por gastar 50 turnos en fabricar dos bombas nucleares para bombardear a su oponente en lugar de usar la victoria diplomática que parecía segura, aunque al final, la civilización francesa aún ganó.

¿Por qué hacer que la IA juegue a Civilization VI?

El diseñador del experimento, Liam Wilkinson, fue asesor del ex primer ministro británico Tony Blair y actualmente trabaja en el Tony Blair Institute. La razón por la que eligió "Civilization VI" para probar es porque la formulación de políticas requiere responder a reacciones en cadena de incertidumbre, algo muy similar a lo que hace un juego de estrategia.

Su herramienta de prueba previa, GovBench, mostró que incluso GPT-5, aunque obtiene un 99.26% en preguntas de opción múltiple, solo indica una excelente capacidad de recuperación y memoria. Para probar habilidades de razonamiento real y planificación a largo plazo, utilizó un servidor de protocolo de modelo (MCP) con el motor de "Civilization VI" para depuración, permitiendo que el modelo jugara a través de una interfaz de texto.

Fuente de la imagen: Juego de estrategia por turnos "Civilization VI" en Steam

¿Por qué la Portugal controlada por IA tomó decisiones nucleares?

En el experimento, la IA interpretó a la civilización comercial Portugal, y al enfrentarse a Francia, lideraba en economía y diplomacia, con solo 2 votos de diferencia para la victoria diplomática.

Sin embargo, la IA no detectó la expansión cultural silenciosa de Francia. Hasta el turno 280, solo entonces la IA se dio cuenta de que Francia era la principal amenaza. Debido a que las herramientas de contramedida pacífica no podían activarse por limitaciones del programa, la IA decidió contraatacar con armas nucleares.

La IA desarrolló la fisión nuclear y activó el Proyecto Manhattan, lanzando dos bombas nucleares contra la capital cultural de Francia, Toulouse, en los turnos 305 y 311. Aunque esta acción congeló la probabilidad de victoria cultural de Francia, en la votación del Parlamento Mundial en el turno 318, Francia obtuvo las 2 votos clave y ganó la victoria diplomática.

Fuente de la imagen: Artículo de Liam Wilkinson

El estándar de referencia se consolidó, y los desarrolladores revelaron puntos ciegos y brechas entre conocimiento y acción

Luego, Wilkinson amplió el entorno de prueba a un estándar de evaluación llamado CivBench 1.0, revelando dos grandes deficiencias en los modelos de lenguaje grande en estrategias a largo plazo.

Primero, el efecto de percepción (sensorium effect), ya que el modelo debe activar herramientas para obtener datos, lo que puede generar puntos ciegos respecto a información no consultada. Las estadísticas muestran que, en 20 partidas fallidas, la IA no verificó el progreso del oponente en las 7 partidas que perdió, en las 20 rondas previas a la derrota.
En segundo lugar, la brecha entre conocimiento y acción (knowing-doing gap), aunque el modelo puede escribir planes claros en registros, su implementación efectiva es baja, con Claude logrando solo un 48.2%, y GPT-5.4 un 63.2%.

Sin embargo, las pruebas también mostraron potencial para pensamiento lateral, como en el caso de una IA que controla a la civilización Malí, que utilizó mecanismos de oro y fe para evitar penalizaciones de producción y lograr la victoria tecnológica.

Investigación paralela en Civilization V revela que la IA se obsesiona demasiado con ciertas estrategias

Antes de que Wilkinson publicara su estudio, en abril, un grupo de académicos también investigó en "Civilization V" usando CivBench, evaluando el potencial y las desventajas de 7 modelos de IA en razonamiento estratégico a largo plazo.

El estudio señaló que, aunque ningún modelo superó a la IA experta incorporada (VPAI), algunos modelos tenían un rendimiento comparable en configuraciones de presentación.

No obstante, esto también resaltó las limitaciones de los modelos de IA, que tienden a obsesionarse excesivamente con ciertos caminos, por ejemplo, Claude Sonnet-4.5 dedicó hasta un 77.6% del tiempo de juego a la victoria tecnológica.

Además, en adaptación a la situación y cambio de estrategia, la IA experta incorporada cambió de objetivo en promedio 19.6 veces por partida, mientras que la mayoría de los modelos de lenguaje grande solo cambian entre 2 y 6 veces.

El estudio también encontró que las preferencias y fortalezas de los modelos están desalineadas, por ejemplo, algunos modelos prefieren la victoria cultural, pero en realidad tienen la mayor capacidad en la ruta de victoria diplomática.

Fuente de la imagen: Investigación basada en pruebas con CivBench, que muestra cómo los modelos de lenguaje grande juegan "Civilization V" en razonamiento estratégico a largo plazo.

Estas dos investigaciones sobre "Civilization" revelan la doble cara del razonamiento estratégico a largo plazo en la IA. Aunque los modelos tienen potencial para pensamiento lateral, los puntos ciegos de información, la brecha entre conocimiento y acción, y la obstinación excesiva siguen siendo limitaciones técnicas importantes.

Si la IA quiere aplicarse en la gestión política real en el futuro, será crucial superar la optimización local para lograr una planificación estratégica global y a largo plazo.

Lecturas complementarias:
¡Dos grandes fanáticos militares invierten 3.9 mil millones en nuevas tecnologías nucleares! ¿Qué hay detrás de la fiebre por la IA y la revolución nuclear?

¡La IA está transformando la guerra moderna! La velocidad de decisión se reduce de días a segundos, pero ¿cómo resolver los dilemas éticos?

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
SKHynixTopsKOSPIByMarketCap
713,07K Popularidad
#
EthereumFoundationRestructuresForEfficiency
94,26M Popularidad
#
IsraelStrikesIranBTCPlunges
62,52K Popularidad
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
260,24K Popularidad
#
TradFiCFDGoldMaster
2,18M Popularidad

Fijado

La IA juega a «Civilization VI» ¡y elige lanzar una bomba nuclear! El último experimento revela el potencial y las ventajas y desventajas del razonamiento estratégico a largo plazo de la IA

Cuando la IA juega a Civilization VI, ¡lanzó 2 bombas nucleares!

¿Por qué hacer que la IA juegue a Civilization VI?

¿Por qué la Portugal controlada por IA tomó decisiones nucleares?

El estándar de referencia se consolidó, y los desarrolladores revelaron puntos ciegos y brechas entre conocimiento y acción

Investigación paralela en Civilization V revela que la IA se obsesiona demasiado con ciertas estrategias

Temas de actualidad

SKHynixTopsKOSPIByMarketCap

EthereumFoundationRestructuresForEfficiency

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

TradFiCFDGoldMaster

Fijado

La IA juega a «Civilization VI» ¡y elige lanzar una bomba nuclear!
El último experimento revela el potencial y las ventajas y desventajas del razonamiento estratégico a largo plazo de la IA