Equipa de He Kai Ming ELF: O modelo de difusão de linguagem finalmente foi executado

robot
Geração de resumo em curso

De acordo com o monitoramento Beating, a equipe de He Kaiming do MIT lançou o modelo de difusão de linguagem ELF (Embedded Language Flows). Ele não segue a rota autoregressiva do tipo GPT de “prever o próximo token”, mas sim coloca a geração de texto dentro de um espaço de embedding contínuo, até a última etapa, quando é convertido de volta em tokens discretos.

Modelos de difusão já estão maduros na geração de imagens, mas aplicá-los ao texto sempre foi estranho: imagens são sinais contínuos por natureza, enquanto a linguagem é composta por tokens discretos. Antes, muitos modelos de difusão contínua para texto precisavam inserir supervisionamento a nível de token repetidamente durante a trajetória de geração, ou requeriam decodificadores adicionais independentes. A abordagem do ELF é mais limpa: a maior parte das etapas realiza apenas denoising no espaço vetorial contínuo, e na última etapa um rede de peso compartilhado realiza a discretização.

Os resultados experimentais também são impactantes. Na avaliação de geração incondicional do OpenWebText, o ELF-B com 105 milhões de parâmetros atingiu aproximadamente 24,1 de Gen. PPL com 32 passos de amostragem, superando várias linhas de base de modelos de difusão de linguagem discretos e contínuos. Ainda mais importante, o ELF-B usou apenas cerca de 45 bilhões de tokens de treinamento, enquanto métodos comparativos geralmente ultrapassam 500 bilhões, ou seja, o treinamento utilizou cerca de uma ordem de magnitude a menos de tokens. Este resultado pelo menos indica que a rota de difusão contínua não foi bloqueada pela “discretidade da linguagem”; problemas anteriores provavelmente estavam na interface de modelagem e no design de amostragem.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar