ByteDance abre el código abierto de Cola DLM: redefiniendo la generación de texto con modelos de difusión

robot
Generación de resúmenes en curso
Noticias ME News, 16 de mayo (UTC+8), según la monitorización de 动察 Beating, el equipo Seed de ByteDance ha abierto el código de Cola DLM.
Se trata de un conjunto de modelos de difusión de lenguaje potencial continuo, que intenta sortear la ruta fija de generación token por token de los grandes modelos de lenguaje, organizando primero la semántica de alto nivel y luego volviendo a los textos específicos.
El núcleo de Cola DLM es Text VAE + block-causal DiT.
Text VAE primero mapea el texto discreto al espacio latente continuo, y block-causal DiT aprende la prior en el espacio latente mediante Flow Matching, para finalmente que el decodificador condicional restaure las variables latentes en texto.
El proceso de difusión trata con la representación semántica latente, no con la eliminación de ruido repetida en el nivel de token.
La versión de código abierto actual corresponde a un modelo de nivel 2B, con aproximadamente 2.3 mil millones de parámetros en total, de los cuales el núcleo DiT tiene 1.8 mil millones y además hay 500 millones de parámetros en VAE.
En ocho evaluaciones, incluyendo LAMBADA, MMLU, OBQA, HellaSwag, RACE, SIQA, SQuAD y Story Cloze, el artículo afirma que bajo un protocolo de evaluación generativa unificado, ya muestra un rendimiento escalable comparable a los baselines AR / LLaDA del mismo tamaño, alcanzando los mejores resultados en la puntuación media final.
Sin embargo, actualmente sigue siendo un punto de control de investigación, no un modelo de diálogo listo para usar.
La explicación oficial indica que el modelo no ha sido ajustado mediante instrucciones ni RLHF, y su uso principal es investigar cómo se puede aplicar la difusión continua en la generación de texto.
El artículo también muestra experimentos preliminares de extensión hacia modelado unificado de texto e imagen, pero en este repositorio solo se incluye la línea de texto.
(Origen: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 3
  • 1
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
BreadthHunter
· hace7h
Ocho evaluaciones igualan AR, pero sin RLHF, en la práctica todavía puede que no sea tan bueno.
Ver originalResponder0
VineGeometry
· hace7h
¿El diseño de block-causal está pensado para textos largos o para eficiencia? Explícalo en detalle en el artículo.
Ver originalResponder0
GateUser-a4680931
· hace7h
¿La difusión en la capa de semántica latente puede generar una calidad comparable o mejor que AR, según las pruebas reales?
Ver originalResponder0