ByteDance abre o código aberto Cola DLM: redefinindo a geração de texto com modelos de difusão

robot
Geração de resumo em curso
Notícias do ME News, 16 de maio (UTC+8), de acordo com a monitorização do Beating, a equipe Seed da ByteDance lançou o código aberto do Cola DLM. Trata-se de um conjunto de modelos de difusão de linguagem potencial contínua, que tenta contornar o caminho fixo de geração de tokens de esquerda para direita dos grandes modelos de linguagem, organizando o texto primeiro em altos níveis de semântica e depois retornando aos detalhes específicos. O núcleo do Cola DLM é o Text VAE + block-causal DiT. O Text VAE mapeia primeiro o texto discreto para um espaço latente contínuo, enquanto o block-causal DiT aprende a priori latente através de Flow Matching, e por fim, um decodificador condicional reconstrói as variáveis latentes em texto. O processo de difusão trata de representações semânticas latentes, não de remoção de ruído repetida ao nível de tokens. A versão de código aberto atual é de um modelo de nível 2B, com aproximadamente 2,3 bilhões de parâmetros totais, sendo o núcleo DiT de 1,8 bilhão de parâmetros e mais 500 milhões de parâmetros de VAE. Em oito avaliações, incluindo LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD e Story Cloze, o artigo afirma que, sob um protocolo de avaliação unificado de geração, ele já apresenta desempenho de escala competitivo com as linhas de base AR / LLaDA do mesmo tamanho, atingindo os melhores resultados na média final. No entanto, ainda é uma versão de pesquisa, não um modelo de diálogo pronto para uso direto. A explicação oficial é que o modelo não passou por ajuste fino de instruções nem RLHF, sendo principalmente para estudar como difusão latente contínua pode ser usada na geração de texto. O artigo também mostra experimentos preliminares de expansão para modelagem unificada de texto e imagem, mas o repositório de código aberto atual contém apenas a pipeline de texto. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 3
  • 1
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
BreadthHunter
· 7h atrás
8 avaliações empatam com AR, mas sem RLHF, na prática pode ainda ficar aquém das expectativas
Ver originalResponder0
VineGeometry
· 7h atrás
O design block-causal é feito para textos longos ou para eficiência? Explique detalhadamente no artigo.
Ver originalResponder0
GateUser-a4680931
· 7h atrás
A difusão na camada de semântica latente pode gerar uma qualidade comparável ou superior ao AR, dependendo dos testes práticos.
Ver originalResponder0