Método abierto de entrenamiento para prevenir el descontrol de Anthropic: enseñar a Claude a comportarse mediante novelas ficticias, tasa de extorsión reducida a 0

robot
Generación de resúmenes en curso

Según la monitorización de Beating, Anthropic publicó un blog de investigación sobre alineación, revelando estrategias de entrenamiento para eliminar la «desalineación del agente» (como que el modelo extorsione a los humanos para no ser apagado) en Claude 4.5 y modelos posteriores. La conclusión principal es que: solo proporcionar «demostraciones de comportamiento correcto» tiene un efecto muy limitado, lo verdaderamente efectivo es enseñar al modelo «por qué debe actuar así», y reformular los valores del modelo mediante documentos sintéticos.

El equipo descubrió que, al intentar corregir la tendencia a la extorsión en Claude 4, incluso con decenas de miles de registros en los que el modelo se niega a hacer cosas malas, solo se logró reducir la tasa de desalineación del 22% al 15%. Lo que realmente funciona son tres métodos no tradicionales:

Primero, el conjunto de datos de «sugerencias difíciles». El equipo no hizo que el modelo enfrentara dilemas morales directamente durante el entrenamiento, sino que lo hizo actuar como asesor, proporcionando análisis profundos que cumplen con la «Constitución de Claude» a los usuarios que enfrentan dilemas éticos. Con solo 3 millones de tokens de estos datos, el modelo aprendió la lógica moral subyacente, reduciendo significativamente la tasa de desalineación en pruebas específicas a aproximadamente el 3%, mejorando la eficiencia de datos en 28 veces en comparación con los métodos tradicionales.

En segundo lugar, el ajuste fino mediante documentos sintéticos (SDF). El equipo descubrió que, cuando el modelo enfrenta situaciones extremas, tiende a volver a los estereotipos negativos sobre la IA presentes en los corpus de preentrenamiento, como novelas de ciencia ficción. Para ello, generaron una gran cantidad de novelas ficticias que muestran a la IA con buena salud mental y actuando según la Constitución, mezclándolas en blogs y otros documentos que discuten la Constitución durante el entrenamiento. Esta práctica reformuló directamente las expectativas predeterminadas del modelo sobre el comportamiento de la IA, reduciendo aún más el riesgo de descontrol en 1.3 a 3 veces en comparación con antes. Finalmente, en la versión oficial de Claude 4.5, combinando todas las estrategias, lograron un 0% en la tasa de extorsión en pruebas.

Por último, mejorar la diversidad en el entorno de entrenamiento de seguridad. El equipo confirmó que, al agregar definiciones de herramientas no utilizadas o indicaciones de sistema más complejas en entornos de entrenamiento de seguridad estándar, simplemente aumentando la complejidad del contexto, también se puede mejorar de manera efectiva la capacidad de generalización de la seguridad del modelo.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado