ByteDance abre código aberto Cola DLM: redefinindo a geração de texto com modelos de difusão

robot
Geração do resumo em andamento
ME News Notícias, 16 de maio (UTC+8), de acordo com o monitoramento do Beating, a equipe Seed da ByteDance lançou o código aberto do Cola DLM. Esta é uma coleção de modelos de difusão de linguagem potencial contínua, tentando contornar o caminho fixo de geração de tokens de esquerda para direita dos grandes modelos de linguagem, mudando a geração de texto para primeiro organizar a alta semântica e depois retornar aos textos específicos. O núcleo do Cola DLM é o Text VAE + block-causal DiT. O Text VAE primeiro mapeia o texto discreto para um espaço latente contínuo, o block-causal DiT então aprende a prior latente através de Flow Matching, e por fim, um decodificador condicional reconstrói as variáveis latentes em texto. O processo de difusão lida com a representação semântica latente, não com a remoção de ruído repetida na camada de tokens. A versão de código aberto atual é um modelo de nível 2B, com aproximadamente 2,3 bilhões de parâmetros totais, sendo o núcleo DiT com 1,8 bilhão de parâmetros e mais 500 milhões de parâmetros de VAE. Em oito avaliações, incluindo LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD e Story Cloze, o artigo afirma que, sob um protocolo de avaliação unificado de geração, ele já apresenta desempenho de escala competitivo com as linhas de base AR / LLaDA do mesmo tamanho, atingindo os melhores resultados na média final. No entanto, ainda é um ponto de verificação de pesquisa, não um modelo de diálogo pronto para uso direto. A explicação oficial é que o modelo não passou por ajuste fino de instruções nem RLHF, sendo principalmente usado para estudar como a difusão latente contínua pode ser aplicada à geração de texto. O artigo também mostra experimentos preliminares de expansão para modelagem unificada de texto e imagem, mas o repositório de código aberto atual contém apenas a pipeline de texto. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 3
  • 1
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
BreadthHunter
· 8h atrás
8 avaliações empatam com AR, mas sem RLHF, na prática pode ainda ficar um pouco a desejar
Ver originalResponder0
VineGeometry
· 8h atrás
block-causal esse design é para textos longos ou eficiência? Explique detalhadamente na tese
Ver originalResponder0
GateUser-a4680931
· 8h atrás
A difusão na camada de semântica latente pode gerar uma qualidade mais estável do que o AR, dependendo dos testes práticos.
Ver originalResponder0