ME AI notícia, de acordo com monitoramento do Beating, à medida que o tempo de treinamento da IA aumenta, ela gradualmente perde a capacidade de absorver novos conhecimentos (perda de plasticidade), tornando-se cada vez mais rígida com o treinamento. Se a perda de plasticidade não for superada, os grandes modelos nunca conseguirão aprender continuamente a baixo custo, e cada atualização de conhecimento exigirá o retreinamento de todos os dados históricos e novos dados juntos, consumindo enormes recursos computacionais. A pesquisa mais recente da startup de IA Zyphra demonstrou pela primeira vez que aumentar o tamanho do modelo pode atrasar a degradação, mas os benefícios marginais diminuem, e apenas empilhar parâmetros não resolve a perda de plasticidade. Extrapolações mostram que um modelo de 1B de parâmetros fica "burro" após treinar 1,8 trilhão de tokens, enquanto um modelo de 7B mostra o problema após 9 trilhões. Mais surpreendente ainda, mesmo sem alternância de tarefas, apenas treinando o modelo em um conjunto de dados misto e estável, a perda de plasticidade ainda ocorre. A pesquisa aponta três causas diretas para a "burrice" dos grandes modelos: o volume de parâmetros aumenta com o treinamento, dificultando a condução do gradiente sob o mecanismo de normalização de camada (LayerNorm); os neurônios das camadas MLP entram em hibernação em larga escala (em alguns modelos, até 95% dos neurônios hibernam); e as cabeças de atenção ficam paralisadas (fixando-se em caracteres individuais) ou se tornam preguiçosas (distribuindo uniformemente a atenção por todo o contexto). Para essas características patológicas, as possíveis soluções incluem limitar a expansão dos parâmetros, realizar periodicamente um "reset neural" para forçar a ativação dos neurônios em greve, e introduzir ruído aleatório no mecanismo de atenção para forçar a correção. (Fonte: Beating)

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
SKHynixTopsKOSPIByMarketCap
1,56M Popularidade
#
MicronEarningsBeatExpectationsSharesRise
233,01K Popularidade
#
IsraelStrikesIranBTCPlunges
64K Popularidade
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
344,07K Popularidade
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
560,62K Popularidade

Fixado

sitemap

Pare de empilhar poder computacional de forma estúpida! Estudos mostram que grandes modelos se tornam mais "rígidos" quanto mais treinados, e aumentar os parâmetros não adianta.

Tendências

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Fixado