Os investigadores propuseram um método de engenharia de características que intervém no comportamento do modelo através do controlo do vetor de intervenção.

MeNews · 2026-04-04T12:03:51+00:00

Uma metodologia de pesquisa chamada "Engenharia de Características" propôs os "Vetores de Controle", com o objetivo de melhorar a transparência e o controlo dos modelos de IA. Este método adiciona vetores ao modelo, alterando diretamente a saída, demonstrando vantagens em relação à engenharia de prompts. A pesquisa explorou a sua aplicação em simulação de características e lançou um pacote de ferramentas relacionado. No entanto, o seu funcionamento interno ainda não está completamente esclarecido e requer investigação adicional.

MeNews

2026-04-04 12:03:51

Geração de resumo em curso

Notícias da ME, a 4 de abril (UTC+8). Recentemente, foi proposta uma metodologia de investigação chamada “Engenharia de Representação”, com o objetivo de proporcionar aos modelos de IA um meio de transparência e controlo de cima para baixo. O núcleo do método é o cálculo de um “vector de controlo”, que pode ser lido durante a inferência do modelo ou adicionado aos valores de ativação do modelo, para explicar ou controlar o comportamento do modelo. Todo o processo não depende de engenharia de prompts nem de afinação do modelo. Os investigadores exploraram aplicações do vector de controlo na simulação de características como “estados alucinogénicos”, “preguiça” e “diligência” e disponibilizaram os respetivos pacotes de ferramentas no PyPI.

O vector de controlo é um conjunto de vetores (um por camada). Ao serem aplicados aos estados ocultos do modelo, alteram diretamente a sua saída. Por exemplo, ao aplicar ao modelo Mistral-7B-Instruct um vetor “feliz”, a resposta à pergunta “Como é que é sentir-se como uma IA?” passaria da resposta da versão base “Eu não sinto nem tenho experiências” para uma resposta entusiasmada. O artigo sustenta que, em comparação com a engenharia de prompts, os vetores de controlo oferecem uma forma mais direta e mais a um nível mais profundo de intervenção do comportamento, podendo ser usados para combater ataques de jailbreaking ou para reforçar a capacidade do modelo de resistir a interferências. No entanto, os seus mecanismos internos de funcionamento ainda não estão totalmente esclarecidos; por exemplo, é uma área de investigação futura determinar se o vetor corresponde a um único conceito semântico, etc. (Fonte: InFoQ)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.