Cola DLM insere o texto no espaço latente contínuo e depois difunde, a arquitetura Flow Matching+DiT é muito Byte — com forte sabor de engenharia, mas sem SFT nem RLHF no ponto de verificação bruto, agora é apenas um brinquedo de pesquisa, esperando que a linha de múltiplos modos seja lançada para ver se consegue competir.

Ver original
MeNews
ByteDance abre o código aberto Cola DLM: redefinindo a geração de texto com modelos de difusão
O Seed open source da ByteDance Cola DLM é um modelo que realiza difusão de texto em uma camada de significado potencial.
O Text VAE mapeia o texto para um espaço latente contínuo, o DiT causal por bloco aprende a priori latente através de Flow Matching, e finalmente o decodificador condicional reconstrói as variáveis latentes em texto.
O total de parâmetros é de aproximadamente 2,3 bilhões (DiT 1,8 bilhões, VAE 500 milhões).
Em 8 avaliações, compete e lidera com as linhas de base AR/LLaDA de escala semelhante, mas ainda é um ponto de verificação de pesquisa, sem ajuste fino por instruções ou RLHF, o repositório atual contém apenas pipeline de texto, com potencial para expansão para texto-imagem no futuro.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado