O grupo de 何恺明 do MIT propôs o modelo de difusão de linguagem ELF (Embedded Language Flows), que realiza a difusão de denoising em um espaço de incorporação contínua, e na última etapa converte o vetor de volta para tokens discretos, evitando decodificação autoregressiva ou decodificadores independentes. ELF foca na denoising em espaço contínuo, usando pesos compartilhados para realizar a discretização. Os experimentos mostram que ELF-B com 105 milhões de parâmetros e 32 passos de amostragem tem um PPL de aproximadamente 24,1 na geração do OpenWebText, com tokens de treinamento de apenas cerca de 45 bilhões, enquanto métodos comparáveis geralmente ultrapassam 500 bilhões. Isso indica que o caminho de difusão contínua da linguagem ainda é viável, sendo os problemas mais relacionados à interface de modelagem e ao design de amostragem.

BlockBeatNews

2026-05-13 05:20:33

Geração de resumo em curso

De acordo com o monitoramento Beating, a equipe de He Kaiming do MIT lançou o modelo de difusão de linguagem ELF (Embedded Language Flows). Ele não segue a rota autoregressiva do tipo GPT de “prever o próximo token”, mas sim coloca a geração de texto dentro de um espaço de embedding contínuo, até a última etapa, quando é convertido de volta em tokens discretos.

Modelos de difusão já estão maduros na geração de imagens, mas aplicá-los ao texto sempre foi estranho: imagens são sinais contínuos por natureza, enquanto a linguagem é composta por tokens discretos. Antes, muitos modelos de difusão contínua para texto precisavam inserir supervisionamento a nível de token repetidamente durante a trajetória de geração, ou requeriam decodificadores adicionais independentes. A abordagem do ELF é mais limpa: a maior parte das etapas realiza apenas denoising no espaço vetorial contínuo, e na última etapa um rede de peso compartilhado realiza a discretização.

Os resultados experimentais também são impactantes. Na avaliação de geração incondicional do OpenWebText, o ELF-B com 105 milhões de parâmetros atingiu aproximadamente 24,1 de Gen. PPL com 32 passos de amostragem, superando várias linhas de base de modelos de difusão de linguagem discretos e contínuos. Ainda mais importante, o ELF-B usou apenas cerca de 45 bilhões de tokens de treinamento, enquanto métodos comparativos geralmente ultrapassam 500 bilhões, ou seja, o treinamento utilizou cerca de uma ordem de magnitude a menos de tokens. Este resultado pelo menos indica que a rota de difusão contínua não foi bloqueada pela “discretidade da linguagem”; problemas anteriores provavelmente estavam na interface de modelagem e no design de amostragem.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateSquareMayTradingShare
1.56M Popularidade
#
IsraelStrikesIranBTCPlunges
46.57K Popularidade
#
#DailyPolymarketHotspot
923.47K Popularidade
#
JaneStreetReducesBitcoinETFHoldings
99.13K Popularidade
#
TrumpVisitsChinaMay13
26.08M Popularidade

Fixar

Equipa de He Kai Ming ELF: O modelo de difusão de linguagem finalmente foi executado

Tópicos em destaque

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChinaMay13

Fixar