Pesquisadores do MIT revelam mecanismo de sobreposição forte de LLMs: duplicar a largura reduz aproximadamente pela metade os erros

robot
Geração de resumo em curso

AIMPACT mensagem, 3 de maio (UTC+8), investigadores do MIT revelam o mecanismo pelo qual o desempenho de grandes modelos de linguagem escala de forma confiável com o tamanho, fornecendo pela primeira vez uma validação experimental do fenómeno de “sobreposição”. A pesquisa descobriu que os LLMs contornam as limitações de dimensão armazenando múltiplos conceitos na mesma dimensão, e essa “sobreposição forte” permite que o modelo represente simultaneamente todos os conceitos, sendo que a origem dos erros advém do ruído gerado pelo sobreposição. A equipa utilizou modelos simplificados da Anthropic e modelos open source como OPT, GPT-2, Qwen2.5, Pythia, entre outros, para validação: ao duplicar a largura do modelo, os erros reduzem-se aproximadamente à metade, com um expoente de escala de 0,91, próximo do valor teórico de 1. A pesquisa responde a duas questões-chave: a escala terminará quando a largura do modelo corresponder ao tamanho do vocabulário; para tarefas de linguagem natural, a distribuição de frequência de palavras plana limita a aceleração do espaço, mas o design de arquitetura que incentiva a sobreposição pode alcançar um desempenho superior na mesma escala.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar