A pesquisa do MIT revela o mecanismo de expansão do desempenho de grandes modelos de linguagem, verificando experimentalmente pela primeira vez o fenômeno de "sobreposição forte": múltiplos conceitos coexistindo na mesma dimensão, onde o ruído de sobreposição leva a erros. Com a validação usando modelos simplificados da Anthropic e modelos de código aberto: ao dobrar a largura, os erros são reduzidos pela metade, com um expoente de escala de aproximadamente 0,91. A pesquisa responde a duas perguntas: a expansão cessará quando a largura atingir o tamanho do vocabulário; a distribuição de frequência de palavras em tarefas de linguagem natural limita o espaço de expansão, mas arquiteturas que incentivam a sobreposição podem alcançar melhor desempenho na mesma escala.

MeNews

2026-05-03 13:01:58

Geração de resumo em curso

AIMPACT mensagem, 3 de maio (UTC+8), investigadores do MIT revelam o mecanismo de expansão confiável do desempenho de grandes modelos de linguagem com o aumento de escala, fornecendo pela primeira vez uma validação experimental do fenómeno de “sobreposição”. A pesquisa descobriu que os LLMs contornam a limitação de dimensão armazenando múltiplos conceitos na mesma dimensão, e essa “sobreposição forte” permite que o modelo represente simultaneamente todos os conceitos, sendo a origem do erro o ruído gerado pela sobreposição. A equipa utilizou modelos simplificados da Anthropic e modelos open source como OPT, GPT-2, Qwen2.5, Pythia para validação: ao duplicar a largura do modelo, o erro reduz-se aproximadamente à metade, com um expoente de escala de 0,91, próximo do valor teórico de 1. A pesquisa responde a duas questões-chave: a escala terminará quando a largura do modelo corresponder ao tamanho do vocabulário; para tarefas de linguagem natural, a distribuição de frequência de palavras plana limita a aceleração do espaço, mas o design de arquitetura que incentiva a sobreposição pode alcançar um desempenho superior na mesma escala.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
554.13K Popularidade
#
USSeeksStrategicBitcoinReserve
58.77M Popularidade
#
IsraelStrikesIranBTCPlunges
39.77K Popularidade
#
BitcoinETFOptionLimitQuadruples
1.03M Popularidade
#
#FedHoldsRateButDividesDeepen
43.84K Popularidade

Fixar

Pesquisadores do MIT revelam mecanismo de sobreposição forte de LLMs: duplicar a largura reduz aproximadamente pela metade os erros

Tópicos em destaque

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Fixar