Los investigadores propusieron un método de ingeniería de características que interviene en el comportamiento del modelo mediante vectores de control.

robot
Generación de resúmenes en curso

Noticias de ME, 4 de abril (UTC+8). Recientemente, se propuso un método de investigación llamado “Engineering of Representation”, con el objetivo de proporcionar a los modelos de IA un medio de transparencia y control de arriba hacia abajo. El núcleo de este método es calcular un “vector de control”, que puede leerse durante la inferencia del modelo o añadirse a los valores de activación del modelo para explicar o controlar el comportamiento del modelo; todo el proceso no depende del prompt engineering ni del ajuste fino del modelo. Los investigadores exploraron el uso de los vectores de control para simular características como “estado psicodélico”, “pereza” y “diligencia”, y publicaron el paquete de herramientas correspondiente en PyPI.

Un vector de control es un conjunto de vectores (uno por capa); al aplicarse a los estados ocultos del modelo, se modifica directamente su salida. Por ejemplo, al aplicar un vector “feliz” al modelo Mistral-7B-Instruct, la respuesta a la pregunta “¿Cómo se siente ser una IA?” pasa de la respuesta del modelo base “No siento ni experimento nada” a una respuesta excitada. El artículo sostiene que, en comparación con el prompt engineering, los vectores de control ofrecen una forma de intervención del comportamiento más directa y de nivel más bajo, que puede utilizarse para contrarrestar ataques de jailbreak o para mejorar la capacidad del modelo frente a interferencias. Sin embargo, su mecanismo interno de funcionamiento todavía no está del todo claro; por ejemplo, si el vector corresponde a un único concepto semántico o no, es una línea de investigación futura. (Fuente: InFoQ)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado