A pesquisa do MIT revela o mecanismo de expansão do desempenho de grandes modelos de linguagem, verificando experimentalmente pela primeira vez o fenômeno de "sobreposição forte": múltiplos conceitos coexistindo na mesma dimensão, onde o ruído de sobreposição leva a erros. Com a validação usando modelos simplificados da Anthropic e modelos de código aberto: ao dobrar a largura, os erros são reduzidos pela metade, com um expoente de escala de aproximadamente 0,91. A pesquisa responde a duas perguntas: a expansão cessará quando a largura atingir o tamanho do vocabulário; a distribuição de frequência de palavras em tarefas de linguagem natural limita o espaço de expansão, mas arquiteturas que incentivam a sobreposição podem alcançar melhor desempenho na mesma escala.

MeNews

2026-05-03 12:01:25

Geração de resumo em curso

AIMPACT mensagem, 3 de maio (UTC+8), investigadores do MIT revelam o mecanismo pelo qual o desempenho de grandes modelos de linguagem escala de forma confiável com o tamanho, fornecendo pela primeira vez uma validação experimental do fenómeno de “sobreposição”. A pesquisa descobriu que os LLMs contornam as limitações de dimensão armazenando múltiplos conceitos na mesma dimensão, e essa “sobreposição forte” permite que o modelo represente simultaneamente todos os conceitos, sendo que a origem dos erros advém do ruído gerado pelo sobreposição. A equipa utilizou modelos simplificados da Anthropic e modelos open source como OPT, GPT-2, Qwen2.5, Pythia, entre outros, para validação: ao duplicar a largura do modelo, os erros reduzem-se aproximadamente à metade, com um expoente de escala de 0,91, próximo do valor teórico de 1. A pesquisa responde a duas questões-chave: a escala terminará quando a largura do modelo corresponder ao tamanho do vocabulário; para tarefas de linguagem natural, a distribuição de frequência de palavras plana limita a aceleração do espaço, mas o design de arquitetura que incentiva a sobreposição pode alcançar um desempenho superior na mesma escala.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
574.24K Popularidade
#
USSeeksStrategicBitcoinReserve
58.77M Popularidade
#
IsraelStrikesIranBTCPlunges
41.78K Popularidade
#
BitcoinETFOptionLimitQuadruples
1.03M Popularidade
#
#FedHoldsRateButDividesDeepen
44.66K Popularidade

Fixar

Pesquisadores do MIT revelam mecanismo de sobreposição forte de LLMs: duplicar a largura reduz aproximadamente pela metade os erros

Tópicos em destaque

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Fixar