Os investigadores propuseram um método de engenharia de características que intervém no comportamento do modelo através do controlo do vetor de intervenção.

robot
Geração de resumo em curso

Notícias ME, mensagem de 4 de abril (UTC+8). Recentemente, foi proposta uma metodologia de investigação chamada “Representação por Engenharia”, com o objetivo de fornecer aos modelos de IA um meio transparente e controlável, de cima para baixo. O núcleo do método é calcular um “vector de controlo”, que pode ser lido durante a inferência do modelo ou adicionado aos valores de ativação do modelo, para explicar ou controlar o comportamento do modelo; todo o processo não depende de engenharia de prompts nem de afinação (fine-tuning) do modelo. Os investigadores exploraram aplicações do vector de controlo na simulação de características como “estado psicadélico”, “preguiça” e “diligência”, e publicaram um pacote de ferramentas correspondente na PyPI. O vector de controlo é um conjunto de vetores (um por camada), que altera diretamente a sua saída através da aplicação aos estados ocultos do modelo. Por exemplo, ao aplicar ao modelo Mistral-7B-Instruct um vector “feliz”, a resposta à pergunta “Como é que é sentir o que é uma IA?” passa da resposta do modelo na versão de base, “Não sinto nem tenho experiências”, para uma resposta empolgada. O artigo sustenta que, em comparação com a engenharia de prompts, os vectores de controlo fornecem uma forma mais direta e mais subjacente de intervenção comportamental, podendo ser usados para contrariar ataques de jailbreaking ou para reforçar a capacidade do modelo de resistir a interferências. No entanto, o mecanismo interno de funcionamento ainda não está totalmente claro; por exemplo, se os vectores correspondem a um único conceito semântico, é uma questão que constitui uma direção futura de investigação. (Fonte: InFoQ)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar