Os investigadores propuseram um método de engenharia de características que intervém no comportamento do modelo através do controlo do vetor de intervenção.

MeNews · 2026-04-04T14:45:06+00:00

Uma metodologia de pesquisa chamada "Engenharia de Características" propôs os "Vetores de Controle", com o objetivo de melhorar a transparência e o controlo dos modelos de IA. Este método adiciona vetores ao modelo, alterando diretamente a saída, demonstrando vantagens em relação à engenharia de prompts. A pesquisa explorou a sua aplicação em simulação de características e lançou um pacote de ferramentas relacionado. No entanto, o seu funcionamento interno ainda não está completamente esclarecido e requer investigação adicional.

MeNews

2026-04-04 14:45:06

Geração de resumo em curso

Notícias ME, mensagem de 4 de abril (UTC+8). Recentemente, foi proposta uma metodologia de investigação chamada “Representação por Engenharia”, com o objetivo de fornecer aos modelos de IA um meio transparente e controlável, de cima para baixo. O núcleo do método é calcular um “vector de controlo”, que pode ser lido durante a inferência do modelo ou adicionado aos valores de ativação do modelo, para explicar ou controlar o comportamento do modelo; todo o processo não depende de engenharia de prompts nem de afinação (fine-tuning) do modelo. Os investigadores exploraram aplicações do vector de controlo na simulação de características como “estado psicadélico”, “preguiça” e “diligência”, e publicaram um pacote de ferramentas correspondente na PyPI. O vector de controlo é um conjunto de vetores (um por camada), que altera diretamente a sua saída através da aplicação aos estados ocultos do modelo. Por exemplo, ao aplicar ao modelo Mistral-7B-Instruct um vector “feliz”, a resposta à pergunta “Como é que é sentir o que é uma IA?” passa da resposta do modelo na versão de base, “Não sinto nem tenho experiências”, para uma resposta empolgada. O artigo sustenta que, em comparação com a engenharia de prompts, os vectores de controlo fornecem uma forma mais direta e mais subjacente de intervenção comportamental, podendo ser usados para contrariar ataques de jailbreaking ou para reforçar a capacidade do modelo de resistir a interferências. No entanto, o mecanismo interno de funcionamento ainda não está totalmente claro; por exemplo, se os vectores correspondem a um único conceito semântico, é uma questão que constitui uma direção futura de investigação. (Fonte: InFoQ)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.