Pesquisadores do MIT revelam mecanismo de sobreposição forte de LLMs: duplicar a largura reduz aproximadamente pela metade os erros

robot
Geração de resumo em curso

AIMPACT mensagem, 3 de maio (UTC+8), investigadores do MIT revelam o mecanismo de expansão confiável do desempenho de grandes modelos de linguagem com o aumento de escala, fornecendo pela primeira vez uma validação experimental do fenómeno de “sobreposição”. A pesquisa descobriu que os LLMs contornam a limitação de dimensão armazenando múltiplos conceitos na mesma dimensão, e essa “sobreposição forte” permite que o modelo represente simultaneamente todos os conceitos, sendo a origem do erro o ruído gerado pela sobreposição. A equipa utilizou modelos simplificados da Anthropic e modelos open source como OPT, GPT-2, Qwen2.5, Pythia para validação: ao duplicar a largura do modelo, o erro reduz-se aproximadamente à metade, com um expoente de escala de 0,91, próximo do valor teórico de 1. A pesquisa responde a duas questões-chave: a escala terminará quando a largura do modelo corresponder ao tamanho do vocabulário; para tarefas de linguagem natural, a distribuição de frequência de palavras plana limita a aceleração do espaço, mas o design de arquitetura que incentiva a sobreposição pode alcançar um desempenho superior na mesma escala.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar