Los investigadores propusieron un método de ingeniería de características que interviene en el comportamiento del modelo mediante vectores de control.

robot
Generación de resúmenes en curso

Noticias de ME, 4 de abril (UTC+8). Recientemente, se propuso un método de investigación llamado “ingeniería de la representación”, con el objetivo de proporcionar a los modelos de IA una forma transparente y controlable de arriba hacia abajo. El núcleo del método consiste en calcular un “vector de control”, que puede leerse durante la inferencia del modelo o añadirse a los valores de activación del modelo, para explicar o controlar el comportamiento del este, sin necesidad de depender de la ingeniería de prompts ni de la afinación del modelo. Los investigadores exploraron las aplicaciones de los vectores de control para simular características como el “estado psicodélico”, la “pereza” y la “diligencia”, y publicaron el paquete de herramientas correspondiente en PyPI. El vector de control es un conjunto de vectores (uno por capa), que cambian directamente su salida aplicándose a los estados ocultos del modelo. Por ejemplo, al aplicar un vector “feliz” al modelo Mistral-7B-Instruct, la respuesta a la pregunta “¿Cómo se siente ser una IA?” pasa de la versión base de “No siento ni experimento nada” a una respuesta entusiasmada. El artículo sostiene que, en comparación con la ingeniería de prompts, los vectores de control proporcionan una forma de intervención del comportamiento más directa y de nivel más bajo, que puede usarse para contrarrestar ataques de jailbreak o mejorar la capacidad del modelo para resistir interferencias. Sin embargo, los mecanismos internos de funcionamiento aún no están completamente claros; por ejemplo, si el vector corresponde a un solo concepto semántico, etc., es una dirección de investigación futura. (Fuente: InFoQ)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado