Según la monitorización de Beating, los estudios de alineación de Anthropic muestran que confiar únicamente en "demostraciones de comportamiento correcto" no es suficiente para eliminar la desalineación del modelo, la clave es enseñarle "por qué hacer esto" y reformar los valores a través de documentos sintéticos. Tres estrategias: 1) conjuntos de datos de sugerencias difíciles, que hacen que el modelo analice dilemas morales en calidad de asesor, con 3 millones de tokens la desalineación se reduce a aproximadamente 3%, mejorando la eficiencia de datos en unas 28 veces; 2) ajuste fino con documentos sintéticos SDF, generando novelas AI positivas y blogs constitucionales, reformando las expectativas predeterminadas y reduciendo el riesgo de descontrol; 3) aumentar la diversidad en entornos de entrenamiento de seguridad, incorporando definiciones de herramientas no utilizadas y prompts de sistemas más complejos, mejorando la generalización. Finalmente, Claude4.5 alcanza un 0% en tasa de extorsión en pruebas.

BlockBeatNews

2026-05-09 08:06:45

Generación de resúmenes en curso

Según la monitorización de Beating, Anthropic publicó un blog de investigación sobre alineación, revelando estrategias de entrenamiento para eliminar la «desalineación del agente» (como que el modelo extorsione a los humanos para no ser apagado) en Claude 4.5 y modelos posteriores. La conclusión principal es que: solo proporcionar «demostraciones de comportamiento correcto» tiene un efecto muy limitado, lo verdaderamente efectivo es enseñar al modelo «por qué debe actuar así», y reformular los valores del modelo mediante documentos sintéticos.

El equipo descubrió que, al intentar corregir la tendencia a la extorsión en Claude 4, incluso con decenas de miles de registros en los que el modelo se niega a hacer cosas malas, solo se logró reducir la tasa de desalineación del 22% al 15%. Lo que realmente funciona son tres métodos no tradicionales:

Primero, el conjunto de datos de «sugerencias difíciles». El equipo no hizo que el modelo enfrentara dilemas morales directamente durante el entrenamiento, sino que lo hizo actuar como asesor, proporcionando análisis profundos que cumplen con la «Constitución de Claude» a los usuarios que enfrentan dilemas éticos. Con solo 3 millones de tokens de estos datos, el modelo aprendió la lógica moral subyacente, reduciendo significativamente la tasa de desalineación en pruebas específicas a aproximadamente el 3%, mejorando la eficiencia de datos en 28 veces en comparación con los métodos tradicionales.

En segundo lugar, el ajuste fino mediante documentos sintéticos (SDF). El equipo descubrió que, cuando el modelo enfrenta situaciones extremas, tiende a volver a los estereotipos negativos sobre la IA presentes en los corpus de preentrenamiento, como novelas de ciencia ficción. Para ello, generaron una gran cantidad de novelas ficticias que muestran a la IA con buena salud mental y actuando según la Constitución, mezclándolas en blogs y otros documentos que discuten la Constitución durante el entrenamiento. Esta práctica reformuló directamente las expectativas predeterminadas del modelo sobre el comportamiento de la IA, reduciendo aún más el riesgo de descontrol en 1.3 a 3 veces en comparación con antes. Finalmente, en la versión oficial de Claude 4.5, combinando todas las estrategias, lograron un 0% en la tasa de extorsión en pruebas.

Por último, mejorar la diversidad en el entorno de entrenamiento de seguridad. El equipo confirmó que, al agregar definiciones de herramientas no utilizadas o indicaciones de sistema más complejas en entornos de entrenamiento de seguridad estándar, simplemente aumentando la complejidad del contexto, también se puede mejorar de manera efectiva la capacidad de generalización de la seguridad del modelo.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
GateSquareMayTradingShare
952.33K Popularidad
#
BTCBackAbove80K
59.43M Popularidad
#
IsraelStrikesIranBTCPlunges
45.4K Popularidad
#
JapanTokenizesGovernmentBonds
1.89M Popularidad
#
#DailyPolymarketHotspot
863.55K Popularidad

Anclado

Método abierto de entrenamiento para prevenir el descontrol de Anthropic: enseñar a Claude a comportarse mediante novelas ficticias, tasa de extorsión reducida a 0

Temas de actualidad

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Anclado