Os investigadores propuseram um método de engenharia de características que intervém no comportamento do modelo através do controlo do vetor de intervenção.

MeNews · 2026-04-04T05:22:21+00:00

Uma metodologia de pesquisa chamada "Engenharia de Características" propôs os "Vetores de Controle", com o objetivo de melhorar a transparência e o controlo dos modelos de IA. Este método adiciona vetores ao modelo, alterando diretamente a saída, demonstrando vantagens em relação à engenharia de prompts. A pesquisa explorou a sua aplicação em simulação de características e lançou um pacote de ferramentas relacionado. No entanto, o seu funcionamento interno ainda não está completamente esclarecido e requer investigação adicional.

MeNews

2026-04-04 05:22:21

Geração de resumo em curso

Notícia ME: mensagem, 4 de abril (UTC+8). Recentemente, foi proposta uma metodologia de investigação chamada “Representation Engineering”, com o objectivo de fornecer aos modelos de IA uma forma de transparência e controlo de cima para baixo. O núcleo do método consiste em calcular um “vector de controlo”, que pode ser lido durante a inferência do modelo ou adicionado aos valores de activação do modelo, para explicar ou controlar o comportamento do modelo; todo o processo não depende da engenharia de prompts nem do ajuste fino do modelo. Os investigadores exploraram aplicações dos vectores de controlo na simulação de características como “estado alucinogénio”, “preguiça” e “diligência”, e publicaram um pacote de ferramentas PyPI correspondente.

Um vector de controlo é um conjunto de vectores (um por camada), que altera directamente a sua saída ao ser aplicado nos estados ocultos do modelo. Por exemplo, ao aplicar ao modelo Mistral-7B-Instruct um vector “feliz”, a resposta à questão “Como é que se sente a ser uma IA?” muda da resposta do modelo de base “Eu não tenho sentimentos nem experiências” para uma resposta empolgada. O artigo sustenta que, em comparação com a engenharia de prompts, os vectores de controlo fornecem uma forma mais directa e mais a nível profundo de intervenção comportamental, que pode ser usada para contrariar ataques de jailbreak ou reforçar a capacidade do modelo de resistir a interferências. No entanto, os mecanismos internos do seu funcionamento ainda não estão totalmente claros; por exemplo, saber se os vectores correspondem a um único conceito semântico é uma direcção futura de investigação. (Fonte: InFoQ)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

1 gostos