Los investigadores propusieron un método de ingeniería de características que interviene en el comportamiento del modelo mediante vectores de control.

MeNews · 2026-04-04T12:03:51+00:00

Un método de investigación llamado "Ingeniería de Características" propone los "vectores de control", con el objetivo de mejorar la transparencia y el control de los modelos de IA. Este método añade vectores al modelo para modificar directamente la salida, mostrando ventajas en comparación con la ingeniería de prompts. La investigación exploró su aplicación en la simulación de características y publicó un paquete de herramientas relacionado. Sin embargo, su mecanismo interno aún no está completamente claro y requiere más estudios.

MeNews

2026-04-04 12:03:51

Generación de resúmenes en curso

Noticias de ME, 4 de abril (UTC+8). Recientemente, se propuso un método de investigación llamado “Engineering of Representation”, con el objetivo de proporcionar a los modelos de IA un medio de transparencia y control de arriba hacia abajo. El núcleo de este método es calcular un “vector de control”, que puede leerse durante la inferencia del modelo o añadirse a los valores de activación del modelo para explicar o controlar el comportamiento del modelo; todo el proceso no depende del prompt engineering ni del ajuste fino del modelo. Los investigadores exploraron el uso de los vectores de control para simular características como “estado psicodélico”, “pereza” y “diligencia”, y publicaron el paquete de herramientas correspondiente en PyPI.

Un vector de control es un conjunto de vectores (uno por capa); al aplicarse a los estados ocultos del modelo, se modifica directamente su salida. Por ejemplo, al aplicar un vector “feliz” al modelo Mistral-7B-Instruct, la respuesta a la pregunta “¿Cómo se siente ser una IA?” pasa de la respuesta del modelo base “No siento ni experimento nada” a una respuesta excitada. El artículo sostiene que, en comparación con el prompt engineering, los vectores de control ofrecen una forma de intervención del comportamiento más directa y de nivel más bajo, que puede utilizarse para contrarrestar ataques de jailbreak o para mejorar la capacidad del modelo frente a interferencias. Sin embargo, su mecanismo interno de funcionamiento todavía no está del todo claro; por ejemplo, si el vector corresponde a un único concepto semántico o no, es una línea de investigación futura. (Fuente: InFoQ)

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.