NVIDIA lanza el modelo de IA de dos torres como código abierto, con una velocidad de generación de texto 2.42 veces mayor y una conservación de la calidad de imagen del 98.7%.

ME AI mensaje: NVIDIA ha lanzado el modelo de lenguaje de difusión discreta Nemotron-Labs-TwoTower, que resuelve el problema de la baja velocidad de generación token por token de los grandes modelos. Los pesos ya están disponibles como código abierto en Huggingface. Este modelo reutiliza los pesos preentrenados de la red troncal existente, sin necesidad de entrenar desde cero, lo que reduce significativamente los costos. Adopta una arquitectura de doble torre de 60B, con dos redes de 30B trabajando en paralelo y de forma colaborativa. Cada torre activa 3B de parámetros y está equipada con 128 módulos de expertos enrutables, mejorando la eficiencia de generación. (Fuente: MLion)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado