Os investigadores propuseram um método de engenharia de características que intervém no comportamento do modelo através do controlo do vetor de intervenção.

robot
Geração de resumo em curso

Notícias ME, mensagem de 4 de abril (UTC+8). Recentemente, foi proposta uma metodologia de pesquisa chamada “Engenharia de Representação”, com o objectivo de proporcionar aos modelos de IA um meio de transparência e controlo de cima para baixo. O núcleo do método é calcular um “vector de controlo”, que pode ser lido durante a inferência do modelo ou adicionado aos valores de activação do modelo, para explicar ou controlar o comportamento do modelo; todo o processo não depende de engenharia de prompts nem de afinação (fine-tuning) do modelo. Os investigadores exploraram as aplicações dos vectores de controlo para simular características como “estado de êxtase” e “preguiça” versus “diligência”, e disponibilizaram um pacote de ferramentas PyPI correspondente. O vector de controlo é um conjunto de vectores (um por camada), que altera directamente a sua saída ao ser aplicado nos estados ocultos do modelo. Por exemplo, ao aplicar um vector “feliz” ao modelo Mistral-7B-Instruct, a resposta à pergunta “Como é que é estar na pele da IA?” passa da resposta do modelo base “Não sinto nem tenho experiências” para uma resposta entusiasmada. O artigo sustenta que, em comparação com a engenharia de prompts, os vectores de controlo proporcionam uma forma mais directa e de nível mais baixo de intervenção no comportamento, podendo ser usados para contrariar ataques de jailbreak ou para reforçar a capacidade do modelo de resistir a interferências. No entanto, o mecanismo interno de funcionamento ainda não é totalmente claro; por exemplo, se os vectores correspondem a conceitos semânticos únicos, é uma direcção de investigação futura. (Fonte: InFoQ)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar