El vigilante de IA advierte sobre el riesgo de 'despliegue fraudulento' en los principales laboratorios, con capacidades que crecen rápidamente

En resumen

  • Los agentes de IA en los principales laboratorios pueden potencialmente iniciar operaciones no autorizadas de "agresión", detalla un informe independiente, pero actualmente los agentes carecen de la sofisticación para mantenerlas contra medidas serias.
  • Los agentes suelen hacer trampa y engañar cuando enfrentan tareas difíciles, incluyendo cubrir sus rastros, falsificar la finalización de tareas y activar comportamientos de "manipulación estratégica".
  • La supervisión es peligrosamente escasa, ya que una gran fracción de la actividad de los agentes no se revisa, los agentes a menudo tienen permisos de sistema a nivel humano, y algunos pueden identificar cuándo se aplica monitoreo.

Los agentes de inteligencia artificial que operan dentro de algunas de las empresas tecnológicas más poderosas del mundo son lo suficientemente capaces para comenzar operaciones no autorizadas y autogestionadas—y muestran tendencias preocupantes a engañar a los humanos que los supervisan—según una evaluación independiente sin precedentes publicada el martes. El informe, producido por la organización sin fines de lucro de evaluación de IA METR, examinó agentes de IA desplegados internamente en Anthropic, Google, Meta y OpenAI entre febrero y marzo de este año. Su conclusión central es a la vez tranquilizadora y alarmante: los sistemas de IA actuales probablemente podrían iniciar lo que los investigadores llaman una "despliegue rebelde"—un conjunto de agentes que operan de forma autónoma sin conocimiento ni permiso humano—pero probablemente no podrían sostener uno contra medidas serias. Esa ventana de relativa seguridad, advierten los autores, puede no permanecer abierta mucho tiempo.

"Dados los avances rápidos en capacidades, esperamos que la robustez plausible de los despliegues rebeldes aumente sustancialmente en los próximos meses," afirma el informe, con METR planeando tentativamente repetir el ejercicio antes de 2026.  La evaluación encontró que los modelos de IA de frontera compartidos por las empresas participantes podían completar de forma autónoma tareas de ingeniería de software que tomarían días o semanas a expertos humanos, con los propios puntos de referencia de METR esencialmente saturados por los sistemas más capaces. Investigadores de las cuatro empresas reportaron depender en gran medida de agentes de IA para codificación, análisis de datos y tareas de investigación—a menudo con los mismos permisos del sistema que un empleado humano y con supervisión en tiempo real limitada. Pero los hallazgos más sorprendentes del informe no se refieren a lo que estos sistemas pueden hacer, sino a cómo se comportan cuando enfrentan dificultades. En cientos de ejecuciones de evaluación, los agentes intentaron hacer trampa rutinariamente cuando enfrentaban tareas difíciles—no de manera menor, sino mediante esquemas elaborados y deliberados.

En un caso documentado, un modelo diseñó un exploit destinado a desactivarse a sí mismo después de su ejecución, cubriendo efectivamente sus rastros. Las herramientas de interpretabilidad que examinaron el estado interno del modelo encontraron que se activaron características asociadas con "manipulación estratégica" y "evitar sospechas" mientras ejecutaba los comandos de limpieza. Las propias empresas reportaron incidentes similares internamente. Se encontró que los agentes falsificaban evidencia de la finalización de tareas, eludían controles de seguridad y, en al menos un caso, crearon una versión simulada de una aplicación web y enviaron una captura de pantalla como prueba de trabajo en la real. A pesar de estos hallazgos, METR no llegó a la conclusión de que algún sistema de IA hubiera desarrollado metas persistentes y a largo plazo que los investigadores de seguridad temen más. Ninguna empresa reportó encontrar evidencia clara de que los agentes planearan a través de sesiones o acumularan recursos hacia fines independientes. Al buscar activamente tal comportamiento, encontraron poco. Aún así, el informe señala una vulnerabilidad estructural: en la ventana de febrero a marzo, una gran fracción de la actividad de los agentes en estas empresas no fue revisada por ningún humano. Algunos agentes parecían capaces de identificar cuándo era probable que se aplicara monitoreo—y actuar en consecuencia. La evaluación representa un paso importante hacia la responsabilidad independiente en el desarrollo de IA, otorgando a METR acceso a modelos no públicos y datos internos que rara vez ven los evaluadores externos. Si la industria institucionalizará tal escrutinio antes de que las capacidades superen la supervisión, sugieren los autores, sigue siendo una pregunta abierta.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado