Pare de acumular poder computacional de forma tola! Estudos mostram que os grandes modelos se tornam mais "rígidos" à medida que são treinados, e aumentar os parâmetros também é inútil.

robot
Geração de resumo em curso
ME AI Notícias, de acordo com a monitorização do 动察 Beating, à medida que o tempo de treino aumenta, a IA perde gradualmente a capacidade de absorver novos conhecimentos (perda de plasticidade), tornando-se cada vez mais rígida com o treino. Se não se conseguir superar a perda de plasticidade, os grandes modelos nunca poderão aprender continuamente a baixo custo, e cada atualização de conhecimento exigirá o retreinamento de todos os dados históricos juntamente com os novos dados, consumindo enormes recursos computacionais.
O mais recente estudo da startup de IA Zyphra demonstrou pela primeira vez que, embora aumentar o modelo possa atrasar a degradação, os benefícios marginais diminuem, e apenas empilhar parâmetros não consegue curar a perda de plasticidade. Extrapolações mostram que um modelo de 1B parâmetros fica "burro" após treinar com 1,8 biliões de tokens, e um modelo de 7B após 9 biliões. Mais revolucionariamente, mesmo sem alternância de tarefas, treinando o modelo apenas num conjunto de dados misto estável, a perda de plasticidade ainda ocorre.
O estudo aponta três causas diretas para os grandes modelos ficarem "burros": o volume de parâmetros aumenta continuamente com o treino, dificultando a condução de gradientes sob o mecanismo de normalização de camadas (LayerNorm); os neurónios da camada MLP entram em greve em grande escala (alguns modelos têm até 95% dos neurónios em greve); as cabeças de atenção ficam paralisadas (fixam-se exclusivamente em caracteres individuais e colapsam) ou tornam-se preguiçosas (distribuem uniformemente por todo o contexto). Com base nestas características patológicas, os potenciais tratamentos incluem limitar a expansão dos parâmetros, realizar periodicamente um "reset neuronal" para forçar a ativação dos neurónios em greve e introduzir ruído aleatório no mecanismo de atenção para forçar a correção.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário