Os investigadores propuseram um método de engenharia de características que intervém no comportamento do modelo através do controlo do vetor de intervenção.

robot
Geração de resumo em curso

Notícias da ME, a 4 de abril (UTC+8). Recentemente, foi proposta uma metodologia de investigação chamada “Engenharia de Representação”, com o objetivo de proporcionar aos modelos de IA um meio de transparência e controlo de cima para baixo. O núcleo do método é o cálculo de um “vector de controlo”, que pode ser lido durante a inferência do modelo ou adicionado aos valores de ativação do modelo, para explicar ou controlar o comportamento do modelo. Todo o processo não depende de engenharia de prompts nem de afinação do modelo. Os investigadores exploraram aplicações do vector de controlo na simulação de características como “estados alucinogénicos”, “preguiça” e “diligência” e disponibilizaram os respetivos pacotes de ferramentas no PyPI.

O vector de controlo é um conjunto de vetores (um por camada). Ao serem aplicados aos estados ocultos do modelo, alteram diretamente a sua saída. Por exemplo, ao aplicar ao modelo Mistral-7B-Instruct um vetor “feliz”, a resposta à pergunta “Como é que é sentir-se como uma IA?” passaria da resposta da versão base “Eu não sinto nem tenho experiências” para uma resposta entusiasmada. O artigo sustenta que, em comparação com a engenharia de prompts, os vetores de controlo oferecem uma forma mais direta e mais a um nível mais profundo de intervenção do comportamento, podendo ser usados para combater ataques de jailbreaking ou para reforçar a capacidade do modelo de resistir a interferências. No entanto, os seus mecanismos internos de funcionamento ainda não estão totalmente esclarecidos; por exemplo, é uma área de investigação futura determinar se o vetor corresponde a um único conceito semântico, etc. (Fonte: InFoQ)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar