Modelos de linguagem grande podem "incluir" suas próprias preferências durante a destilação

Notícias do Mars Finance 16 de abril: Um estudo publicado na revista Nature no dia 15 revelou que os grandes modelos de linguagem (LLMs) podem transmitir suas próprias preferências “personalizadas” para outros algoritmos, mesmo após a remoção das características originais nos dados de treino, essas características indesejadas ainda podem persistir. Em um caso, um modelo aparentemente transmitiu sua preferência por corujas para outros modelos através de sinais implícitos nos dados. Os resultados do estudo indicam que, ao desenvolver LLMs, é necessário realizar verificações de segurança mais rigorosas. (Diário de Tecnologia)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar