ME AI Notícias, de acordo com a monitorização do 动察 Beating, à medida que o tempo de treino aumenta, a IA perde gradualmente a capacidade de absorver novos conhecimentos (perda de plasticidade), tornando-se cada vez mais rígida com o treino. Se não se conseguir superar a perda de plasticidade, os grandes modelos nunca poderão aprender continuamente a baixo custo, e cada atualização de conhecimento exigirá o retreinamento de todos os dados históricos juntamente com os novos dados, consumindo enormes recursos computacionais.
O mais recente estudo da startup de IA Zyphra demonstrou pela primeira vez que, embora aumentar o modelo possa atrasar a degradação, os benefícios marginais diminuem, e apenas empilhar parâmetros não consegue curar a perda de plasticidade. Extrapolações mostram que um modelo de 1B parâmetros fica "burro" após treinar com 1,8 biliões de tokens, e um modelo de 7B após 9 biliões. Mais revolucionariamente, mesmo sem alternância de tarefas, treinando o modelo apenas num conjunto de dados misto estável, a perda de plasticidade ainda ocorre.
O estudo aponta três causas diretas para os grandes modelos ficarem "burros": o volume de parâmetros aumenta continuamente com o treino, dificultando a condução de gradientes sob o mecanismo de normalização de camadas (LayerNorm); os neurónios da camada MLP entram em greve em grande escala (alguns modelos têm até 95% dos neurónios em greve); as cabeças de atenção ficam paralisadas (fixam-se exclusivamente em caracteres individuais e colapsam) ou tornam-se preguiçosas (distribuem uniformemente por todo o contexto). Com base nestas características patológicas, os potenciais tratamentos incluem limitar a expansão dos parâmetros, realizar periodicamente um "reset neuronal" para forçar a ativação dos neurónios em greve e introduzir ruído aleatório no mecanismo de atenção para forçar a correção.
(Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
SKHynixTopsKOSPIByMarketCap
1,56M Popularidade
#
MicronEarningsBeatExpectationsSharesRise
233,01K Popularidade
#
IsraelStrikesIranBTCPlunges
64K Popularidade
#
WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷
344,03K Popularidade
#
USMayPCEInflationRisesTo4.1%HighestIn3Years
560,62K Popularidade

Fixado

Pare de acumular poder computacional de forma tola! Estudos mostram que os grandes modelos se tornam mais "rígidos" à medida que são treinados, e aumentar os parâmetros também é inútil.

Tópicos em destaque

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Fixado