Os investigadores propuseram um método de engenharia de características que intervém no comportamento do modelo através do controlo do vetor de intervenção.

robot
Geração de resumo em curso

Notícia ME: mensagem, 4 de abril (UTC+8). Recentemente, foi proposta uma metodologia de investigação chamada “Representation Engineering”, com o objectivo de fornecer aos modelos de IA uma forma de transparência e controlo de cima para baixo. O núcleo do método consiste em calcular um “vector de controlo”, que pode ser lido durante a inferência do modelo ou adicionado aos valores de activação do modelo, para explicar ou controlar o comportamento do modelo; todo o processo não depende da engenharia de prompts nem do ajuste fino do modelo. Os investigadores exploraram aplicações dos vectores de controlo na simulação de características como “estado alucinogénio”, “preguiça” e “diligência”, e publicaram um pacote de ferramentas PyPI correspondente.

Um vector de controlo é um conjunto de vectores (um por camada), que altera directamente a sua saída ao ser aplicado nos estados ocultos do modelo. Por exemplo, ao aplicar ao modelo Mistral-7B-Instruct um vector “feliz”, a resposta à questão “Como é que se sente a ser uma IA?” muda da resposta do modelo de base “Eu não tenho sentimentos nem experiências” para uma resposta empolgada. O artigo sustenta que, em comparação com a engenharia de prompts, os vectores de controlo fornecem uma forma mais directa e mais a nível profundo de intervenção comportamental, que pode ser usada para contrariar ataques de jailbreak ou reforçar a capacidade do modelo de resistir a interferências. No entanto, os mecanismos internos do seu funcionamento ainda não estão totalmente claros; por exemplo, saber se os vectores correspondem a um único conceito semântico é uma direcção futura de investigação. (Fonte: InFoQ)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar