Pare de empilhar poder computacional de forma estúpida! Estudos mostram que grandes modelos se tornam mais "rígidos" quanto mais treinados, e aumentar os parâmetros não adianta.

robot
Geração do resumo em andamento
ME AI notícia, de acordo com monitoramento do Beating, à medida que o tempo de treinamento da IA aumenta, ela gradualmente perde a capacidade de absorver novos conhecimentos (perda de plasticidade), tornando-se cada vez mais rígida com o treinamento. Se a perda de plasticidade não for superada, os grandes modelos nunca conseguirão aprender continuamente a baixo custo, e cada atualização de conhecimento exigirá o retreinamento de todos os dados históricos e novos dados juntos, consumindo enormes recursos computacionais. A pesquisa mais recente da startup de IA Zyphra demonstrou pela primeira vez que aumentar o tamanho do modelo pode atrasar a degradação, mas os benefícios marginais diminuem, e apenas empilhar parâmetros não resolve a perda de plasticidade. Extrapolações mostram que um modelo de 1B de parâmetros fica "burro" após treinar 1,8 trilhão de tokens, enquanto um modelo de 7B mostra o problema após 9 trilhões. Mais surpreendente ainda, mesmo sem alternância de tarefas, apenas treinando o modelo em um conjunto de dados misto e estável, a perda de plasticidade ainda ocorre. A pesquisa aponta três causas diretas para a "burrice" dos grandes modelos: o volume de parâmetros aumenta com o treinamento, dificultando a condução do gradiente sob o mecanismo de normalização de camada (LayerNorm); os neurônios das camadas MLP entram em hibernação em larga escala (em alguns modelos, até 95% dos neurônios hibernam); e as cabeças de atenção ficam paralisadas (fixando-se em caracteres individuais) ou se tornam preguiçosas (distribuindo uniformemente a atenção por todo o contexto). Para essas características patológicas, as possíveis soluções incluem limitar a expansão dos parâmetros, realizar periodicamente um "reset neural" para forçar a ativação dos neurônios em greve, e introduzir ruído aleatório no mecanismo de atenção para forçar a correção. (Fonte: Beating)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários