Los investigadores propusieron un método de ingeniería de características que interviene en el comportamiento del modelo mediante vectores de control.

MeNews · 2026-04-04T05:22:21+00:00

Un método de investigación llamado "Ingeniería de Características" propone los "vectores de control", con el objetivo de mejorar la transparencia y el control de los modelos de IA. Este método añade vectores al modelo para modificar directamente la salida, mostrando ventajas en comparación con la ingeniería de prompts. La investigación exploró su aplicación en la simulación de características y publicó un paquete de herramientas relacionado. Sin embargo, su mecanismo interno aún no está completamente claro y requiere más estudios.

MeNews

2026-04-04 05:22:21

Generación de resúmenes en curso

ME News aviso, 4月4日（UTC+8），recientemente se propuso un método de investigación llamado “engineering de representación”, con el objetivo de proporcionar a los modelos de IA una forma de transparencia y control de arriba hacia abajo. El núcleo de este método es calcular un “vector de control”, que puede leerse durante la inferencia del modelo o añadirse a los valores de activación del modelo, para explicar o controlar el comportamiento del modelo; todo el proceso no requiere depender de ingeniería de prompts ni de ajuste fino del modelo. Los investigadores exploraron aplicaciones de los vectores de control para simular estados como “psicodelia”, “pereza” y “diligencia”, y publicaron el correspondiente paquete de herramientas en PyPI. El vector de control es un conjunto de vectores (uno por capa), que al aplicarse a los estados ocultos del modelo cambian directamente su salida. Por ejemplo, al aplicar un vector de “felicidad” al modelo Mistral-7B-Instruct, la respuesta a la pregunta “¿Cómo se siente ser una IA?” pasa de la versión base de “No tengo sentimientos ni experiencias” a una respuesta entusiasmada. El artículo sostiene que, en comparación con la ingeniería de prompts, los vectores de control ofrecen una forma de intervención conductual más directa y de nivel más bajo, que puede utilizarse para contrarrestar ataques de jailbreak o para mejorar la capacidad del modelo frente a interferencias. Sin embargo, sus mecanismos internos de funcionamiento aún no están completamente claros; por ejemplo, si los vectores corresponden a un único concepto semántico, etc., es una dirección de investigación futura. (Fuente: InFoQ)

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

1 me gusta