Anthropic hace que la IA confiese por sí misma: un complemento LoRA revela comportamientos ocultos que las 10 formas de detectar humanos han pasado por alto

robot
Generación de resúmenes en curso

Mensaje de CoinWorld, el equipo de alineación de Anthropic ha lanzado una técnica de auditoría llamada «adaptadores de introspección» (introspection adapters), diseñada para que los modelos de lenguaje grandes (LLM) informen en lenguaje natural sobre el comportamiento que han aprendido tras un ajuste fino.
La técnica consiste en ajustar finamente una gran cantidad de modelos con comportamientos conocidos a partir del mismo modelo base, y luego entrenar conjuntamente un adaptador LoRA a través de estos modelos, permitiendo que el modelo auditado pueda expresar activamente sus comportamientos ocultos.
En la referencia de auditoría de alineación auditbench, los adaptadores de introspección superaron todos los métodos de auditoría anteriores con una tasa de éxito del 59%, y de 56 modelos con comportamientos ocultos, el 89% tuvo éxito en extraer la descripción del comportamiento.
Frente a ataques de API de ajuste fino en criptomonedas, los adaptadores de introspección identificaron 7 de 9 variantes criptográficas, con una tasa de éxito del 57.8%.
El estudio también encontró que los resultados mejoran a medida que aumenta la escala del modelo, siendo la principal limitación una alta tasa de falsos positivos.
El código, los modelos y los conjuntos de datos ya están disponibles de forma open source en GitHub y Hugging Face.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado