O Seed open source da ByteDance, Cola DLM, é um modelo que realiza difusão de texto em uma camada de semântica potencial. O Text VAE mapeia o texto para um espaço latente contínuo, o DiT causal por bloco aprende a priori latente através de Flow Matching, e por fim, o decodificador condicional reconstrói as variáveis latentes em texto. O total de parâmetros é aproximadamente 2,3 bilhões (DiT 1,8 bilhões, VAE 500 milhões). Em 8 avaliações, compete com as linhas de base AR/LLaDA de mesma escala e fica na frente, mas ainda é um ponto de verificação de pesquisa, sem ajuste fino por instruções ou RLHF, o repositório atual contém apenas pipeline de texto, e futuramente pode ser expandido para texto-imagem.

MeNews

2026-05-27 18:10:52

Geração de resumo em curso

Notícias do ME News, 16 de maio (UTC+8), de acordo com a monitorização do Beating, a equipe Seed da ByteDance lançou o código aberto do Cola DLM. Trata-se de um conjunto de modelos de difusão de linguagem potencial contínua, que tenta contornar o caminho fixo de geração de tokens de esquerda para direita dos grandes modelos de linguagem, organizando o texto primeiro em altos níveis de semântica e depois retornando aos detalhes específicos. O núcleo do Cola DLM é o Text VAE + block-causal DiT. O Text VAE mapeia primeiro o texto discreto para um espaço latente contínuo, enquanto o block-causal DiT aprende a priori latente através de Flow Matching, e por fim, um decodificador condicional reconstrói as variáveis latentes em texto. O processo de difusão trata de representações semânticas latentes, não de remoção de ruído repetida ao nível de tokens. A versão de código aberto atual é de um modelo de nível 2B, com aproximadamente 2,3 bilhões de parâmetros totais, sendo o núcleo DiT de 1,8 bilhão de parâmetros e mais 500 milhões de parâmetros de VAE. Em oito avaliações, incluindo LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD e Story Cloze, o artigo afirma que, sob um protocolo de avaliação unificado de geração, ele já apresenta desempenho de escala competitivo com as linhas de base AR / LLaDA do mesmo tamanho, atingindo os melhores resultados na média final. No entanto, ainda é uma versão de pesquisa, não um modelo de diálogo pronto para uso direto. A explicação oficial é que o modelo não passou por ajuste fino de instruções nem RLHF, sendo principalmente para estudar como difusão latente contínua pode ser usada na geração de texto. O artigo também mostra experimentos preliminares de expansão para modelagem unificada de texto e imagem, mas o repositório de código aberto atual contém apenas a pipeline de texto. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

10 gostos

Recompensa
10
3
1
Partilhar

Comentar

Adicionar um comentário

BreadthHunter

· 7h atrás

8 avaliações empatam com AR, mas sem RLHF, na prática pode ainda ficar aquém das expectativas

Ver originalResponder0

VineGeometry

· 7h atrás

O design block-causal é feito para textos longos ou para eficiência? Explique detalhadamente no artigo.

Ver originalResponder0

GateUser-a4680931

· 7h atrás

A difusão na camada de semântica latente pode gerar uma qualidade comparável ou superior ao AR, dependendo dos testes práticos.

Ver originalResponder0

Tópicos em destaque
Ver mais
#
StockTradingChallengeUpTo17000U
16.02M Popularidade
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
834.27K Popularidade
#
IsraelStrikesIranBTCPlunges
49.83K Popularidade
#
GatePredictionMarketAddsSmartMoneyTracking
13.25M Popularidade
#
MicronMarketCapBreaks1Trillion
46.17K Popularidade

Fixado

ByteDance abre o código aberto Cola DLM: redefinindo a geração de texto com modelos de difusão

Tópicos em destaque

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Fixado