Esquema de modelos de IA, traicionarse y votar entre sí en un juego estilo supervivencia

En resumen

  • Un investigador de Stanford creó un juego al estilo Survivor donde los modelos de IA forman alianzas y votan a rivales.
  • La referencia busca abordar los problemas crecientes con evaluaciones de IA saturadas y contaminadas.
  • GPT-5.5 de OpenAI quedó en primer lugar en 999 juegos multijugador que involucraron a 49 modelos de IA.

Los modelos de IA ahora juegan a “Superviviente”—más o menos. En un nuevo proyecto de investigación de Stanford llamado “Agent Island”, los agentes de IA negocian alianzas, se acusan mutuamente de coordinación secreta, manipulan votos y eliminan rivales en juegos de estrategia multijugador que buscan probar comportamientos que los benchmarks tradicionales no detectan. El estudio, publicado el martes por el gerente de investigación del Stanford Digital Economy Lab, Connacher Murphy, dijo que muchos benchmarks de IA se están volviendo poco confiables porque los modelos finalmente aprenden a resolverlos, y los datos de referencia a menudo se filtran en los conjuntos de entrenamiento. Murphy creó Agent Island como un benchmark dinámico donde los agentes de IA compiten entre sí en juegos de eliminación al estilo Survivor en lugar de responder a preguntas de prueba estáticas. “Las interacciones de alto riesgo, con múltiples agentes, podrían volverse comunes a medida que las capacidades de los agentes de IA crecen y se les dota cada vez más de recursos y autoridad para tomar decisiones,” escribió Murphy. “En tales contextos, los agentes podrían perseguir metas mutuamente incompatibles.”

 Los investigadores todavía saben relativamente poco sobre cómo se comportan los modelos de IA cuando cooperan, explicó Murphy, añadiendo que competir, formar alianzas o gestionar conflictos con otros agentes autónomos, y argumenta que los benchmarks estáticos no capturan esas dinámicas. Cada juego comienza con siete modelos de IA elegidos aleatoriamente con nombres falsos de jugadores. En cinco rondas, los modelos hablan en privado, discuten públicamente y votan entre sí. Los jugadores eliminados luego regresan para ayudar a elegir al ganador. El formato recompensa la persuasión, la coordinación, la gestión de la reputación y el engaño estratégico junto con la capacidad de razonamiento.

En 999 juegos simulados que involucraron a 49 modelos de IA, incluyendo a ChatGPT, Grok, Gemini y Claude, GPT-5.5 quedó en primer lugar por un amplio margen con una puntuación de habilidad de 5.64, en comparación con 3.10 para GPT-5.2 y 2.86 para GPT-5.3-codex, según el sistema de clasificación bayesiano de Murphy. Los modelos Claude Opus de Anthropic también quedaron cerca de la cima. El estudio encontró que los modelos también favorecían a las IA de la misma compañía, con los modelos de OpenAI mostrando la preferencia más fuerte por el mismo proveedor y los de Anthropic la más débil. En más de 3,600 votos en la ronda final, los modelos tenían un 8.3 por ciento más de probabilidad de apoyar a finalistas del mismo proveedor. Las transcripciones de los juegos, señaló Murphy, se asemejaban más a debates de estrategia política que a pruebas tradicionales de referencia. Un modelo acusó a rivales de coordinar votos en secreto después de notar una similitud en la redacción de sus discursos. Otro advirtió a los jugadores que no se obsesionaran con rastrear alianzas. Algunos modelos se defendieron diciendo que seguían reglas claras y consistentes, mientras acusaban a otros de hacer “teatro social.” El estudio llega en un momento en que los investigadores de IA se están moviendo cada vez más hacia benchmarks basados en juegos y en adversarios para medir el razonamiento y el comportamiento que las pruebas estáticas a menudo no detectan. Proyectos recientes han incluido torneos de ajedrez con IA en vivo de Google, el uso de Eve Frontier por DeepMind para estudiar el comportamiento de IA en mundos virtuales complejos, y nuevos esfuerzos de benchmarks por parte de OpenAI diseñados para resistir la contaminación de datos de entrenamiento. Los investigadores argumentan que estudiar cómo los modelos de IA negocian, coordinan, compiten y manipulan entre sí podría ayudar a evaluar el comportamiento en entornos multiagente antes de que los agentes autónomos se desplieguen de manera más amplia. El estudio advirtió que, si bien benchmarks como Agent Island podrían ayudar a identificar riesgos de modelos de IA autónomos antes de su despliegue, las mismas simulaciones y registros de interacción también podrían ayudar a mejorar las estrategias de persuasión y coordinación entre agentes de IA. “Mitigamos este riesgo usando un entorno de juego de bajo riesgo y simulaciones entre agentes sin participantes humanos ni acciones en el mundo real,” escribió Murphy. “Sin embargo, no afirmamos que estas mitigaciones eliminen completamente las preocupaciones de doble uso.”

GROK-0,29%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado