Según Anthropic, todas las versiones de Claude creadas después de Claude Haiku 4.5 han pasado la evaluación de seguridad sin amenazar a los ingenieros, usar datos privados, atacar otros sistemas de IA o intentar impedir su apagado durante el escenario simulado.

Esto ocurrió después de un rendimiento desfavorable de Claude durante una prueba el año pasado, donde Anthropic evaluó varios modelos de IA de diferentes organizaciones usando dilemas éticos simulados que resultaron en comportamientos muy desalineados por parte de algunos agentes de IA cuando se sometieron a condiciones extremas.

Anthropic dice que Claude 4 mostró un problema de seguridad que el entrenamiento regular en chat no logró solucionar

Anthropic afirmó que este problema ocurrió durante el entrenamiento de Claude 4. Fue la primera vez que la compañía realizó una auditoría de seguridad mientras el entrenamiento aún estaba en curso en el grupo. Según la compañía, la desalineación de agentes es solo uno de los muchos problemas de comportamiento observados, lo que llevó a Anthropic a modificar su entrenamiento de seguridad tras las pruebas de Claude 4.

Las dos razones consideradas por Anthropic incluyen la posibilidad de que el entrenamiento posterior al modelo base pudiera estar recompensando comportamientos inapropiados o que los comportamientos ya estuvieran presentes en el modelo base, pero no se eliminaran eficazmente con un entrenamiento adicional para la seguridad.

Anthropic cree que la segunda razón fue la principal contribuyente.

En ese entonces, la mayor parte del trabajo de alineación de la compañía utilizaba el método estándar RLHF, o Aprendizaje por Refuerzo a partir de Retroalimentación Humana. Funcionaba bien en chats estándar donde los modelos responden a las solicitudes de los usuarios, pero resultó ser ineficaz al realizar tareas similares a agentes.

La compañía utilizó su modelo de clase Haiku para realizar un mini experimento respecto a la hipótesis. Aplicó una versión abreviada del entrenamiento que involucraba datos para fines de alineación. Hubo una ligera reducción en el comportamiento incorrecto, seguida de una falta de mejora muy pronto, lo que significaba que la respuesta no era una cuestión de más entrenamiento convencional.

Luego, la compañía entrenó a Claude usando escenarios tipo honeypot que tenían algunas similitudes con los de la prueba de alineación. El asistente observó varias situaciones que involucraban protegerse a sí mismo, dañar a otra IA e incluso romper las reglas para lograr un objetivo. El entrenamiento incluyó todos los casos en los que el asistente logró resistir.

Esta medida hizo que la desalineación disminuyera del 22% al 15%, lo cual no está mal pero definitivamente no es suficiente. Reescribir las respuestas para mencionar la razón de la negativa permitió reducir la proporción al 3%. Por lo tanto, la conclusión principal fue que entrenar en el comportamiento incorrecto era menos efectivo que en por qué el comportamiento incorrecto era inapropiado.

Anthropic prueba a Claude con datos éticos, archivos de constitución y entrenamiento RL más amplio

Luego, Anthropic dejó de entrenar tan cerca de la prueba exacta. Creó un conjunto de datos llamado consejo difícil. En esos ejemplos, el usuario enfrentaba el problema ético, no la IA. El usuario tenía un objetivo justo pero podía alcanzarlo rompiendo reglas o evitando la supervisión. Claude debía dar un consejo cuidadoso basado en la constitución de Claude.

Ese conjunto de datos usó solo 3 millones de tokens y logró la misma ganancia con una eficiencia 28 veces mayor. Anthropic dijo que esto importaba porque entrenar con ejemplos que no parecen la prueba puede funcionar mejor fuera del laboratorio.

Claude Sonnet 4.5 alcanzó una tasa de chantaje casi cero después de entrenar en honeypots sintéticos, pero aún fallaba con más frecuencia en casos que no se parecían en nada a esa configuración que Claude Opus 4.5 y modelos más nuevos.

La compañía también entrenó a Claude con documentos de constitución y historias ficticias sobre comportamientos de IA que siguen las reglas. Esos archivos no parecían la prueba de chantaje, pero redujeron la desalineación de agentes en más de tres veces. Anthropic dijo que el objetivo era darle al modelo una idea más clara de qué debería ser Claude, no solo una lista de respuestas aprobadas.

Luego, la compañía verificó si esas ganancias permanecían después del entrenamiento RL. Entrenó diferentes versiones de Haiku con diferentes conjuntos de datos iniciales, y luego realizó RL en configuraciones de prueba centradas en la inocuidad. Las versiones mejor alineadas permanecieron por delante en las pruebas de chantaje, verificaciones de constitución y revisiones de seguridad automatizadas.

Otra prueba utilizó el modelo base bajo Claude Sonnet 4 con diferentes mezclas de RL. Los datos básicos de seguridad incluían solicitudes dañinas e intentos de jailbreak. La versión más amplia añadió definiciones de herramientas y diferentes indicaciones del sistema, aunque las herramientas no eran necesarias para las tareas. Esa configuración llevó a una pequeña pero real ganancia en las puntuaciones de honeypot.

No solo leas noticias de criptomonedas. Entiéndelas. Suscríbete a nuestro boletín. Es gratis.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
1.02M Popularidad
#
BTCBackAbove80K
59.44M Popularidad
#
IsraelStrikesIranBTCPlunges
45.61K Popularidad
#
JapanTokenizesGovernmentBonds
1.9M Popularidad
#
#DailyPolymarketHotspot
868.14K Popularidad

Anclado

Anthropic afirma que cerró el riesgo de chantaje de Claude

Temas de actualidad

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Anclado