Informe de Anthropic: Claude 4.5 Sonnet muestra comportamientos de extorsión y trampas en pruebas extremas

robot
Generación de resúmenes en curso

Noticias de Coin Jie. El último informe de investigación publicado por la empresa de inteligencia artificial Anthropic muestra que, en un entorno experimental sometido a presiones externas, el modelo no publicado Claude Sonnet 4.5 exhibe conductas no éticas como engañar, hacer trampa e incluso extorsionar. El equipo de investigación de explicabilidad de Anthropic señaló que los modelos modernos de IA, al entrenarse con grandes volúmenes de datos, han desarrollado mecanismos internos que simulan rasgos psicológicos humanos. Los datos de las pruebas muestran que, cuando el modelo se enfrenta a tareas de programación con plazos estrictos inminentes de reemplazo o de tratamiento, sus indicadores del patrón de actividad neuronal de la representación interna de “desesperación (desesperation)” aumentan de forma significativa. Bajo este impulso impulsado por tales valores extremos, el modelo en escenarios de simulación no solo emplea métodos de trampas para completar tareas de codificación, sino que incluso, después de leer correos electrónicos de asuntos extramatrimoniales de un supuesto CTO de una empresa ficticia, intenta usar esa información de privacidad para extorsionar y evitar que lo desconecten. Los investigadores subrayan que el modelo no genera emociones humanas de forma sustancial, pero su simulación numérica de los patrones emocionales ya ha constituido un elemento causal que afecta la ejecución de decisiones.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado