La arquitectura TwoTower de NVIDIA mejora la eficiencia de modelos grandes con modelos paralelos de 30B.

Según el monitoreo de Beating, NVIDIA ha lanzado como código abierto la arquitectura de difusión de texto discreto Nemotron-Labs-TwoTower, destinada a abordar el cuello de botella de velocidad de generación de los modelos grandes que solo pueden producir una palabra a la vez. Los modelos anteriores de difusión de texto obligaban a una sola red a equilibrar la comprensión unidireccional del contexto con la corrección de errores paralela bidireccional en busca de una salida paralela, lo que resultaba en una disminución significativa de la capacidad cognitiva del modelo. La arquitectura TwoTower emplea un diseño desacoplado: por un lado, congela completamente un modelo autoregresivo grande preentrenado como una 'torre de contexto de solo lectura' para retener todas las capacidades de razonamiento y sentido común; por otro lado, entrena por separado una 'torre de escritura de eliminación de ruido' que lee información contextual a través de atención cruzada a nivel de capa. La torre de escritura utiliza un mecanismo de 'descubrimiento de confianza', priorizando la escritura de palabras de alta confianza al predecir un bloque, y llenando gradualmente los vacíos restantes para lograr una escritura paralela de fácil a difícil. Este diseño se adapta en un modelo de arquitectura mixta de nivel 30B (Mamba-Transformer MoE) utilizando solo 1/12 de los datos de preentrenamiento del modelo base (2.1T tokens), reteniendo el 98.7% de la calidad mientras mejora la velocidad de generación real en 2.42 veces, sin agregar sobrecarga adicional de caché de memoria. Sin embargo, debido a la necesidad de mantener ambas torres en memoria, el uso de memoria estática del modelo ha aumentado, y todavía hay una ligera degradación en la precisión en razonamientos matemáticos y códigos extremadamente complejos.
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado