Los investigadores propusieron un método de ingeniería de características que interviene en el comportamiento del modelo mediante vectores de control.

robot
Generación de resúmenes en curso

ME Noticias, mensaje del 4 de abril (UTC+8). Recientemente, se propuso un método de investigación llamado “ingeniería de representaciones”, cuyo objetivo es proporcionar a los modelos de IA una forma de transparencia y control de arriba hacia abajo. El núcleo del método es calcular un “vector de control”, que puede leerse durante la inferencia del modelo o añadirse a los valores de activación del modelo para explicar o controlar el comportamiento del modelo; todo el proceso no depende de la ingeniería de prompts ni del ajuste fino del modelo. Los investigadores exploraron aplicaciones de los vectores de control para simular estados como “psicodélicos”, “pereza” y “diligencia”, y publicaron el paquete correspondiente de herramientas en PyPI. Un vector de control es un conjunto de vectores (uno por capa), que al aplicarse a los estados ocultos del modelo alteran directamente su salida. Por ejemplo, al aplicar a un modelo Mistral-7B-Instruct un vector “feliz”, la respuesta a la pregunta “¿Qué se siente ser una IA?” pasa de la respuesta del modelo base “No siento ni tengo experiencias” a una respuesta emocionada. La opinión en el artículo sostiene que, en comparación con la ingeniería de prompts, los vectores de control ofrecen una forma de intervención conductual más directa y a un nivel más bajo, que puede utilizarse para contrarrestar ataques de jailbreak o para mejorar la capacidad del modelo de resistir interferencias. Sin embargo, el mecanismo interno de funcionamiento aún no está del todo claro; por ejemplo, si los vectores corresponden a conceptos semánticos únicos, entre otros aspectos, es una línea de investigación futura. (Fuente: InFoQ)

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado