NVIDIA lanza el modelo Nemotron3 Nano Omni: puede procesar unificado video, audio, imágenes y texto, mejorando la eficiencia del razonamiento multimodal

robot
Generación de resúmenes en curso

BlockBeats Noticias, 29 de abril, Nvidia lanza oficialmente Nemotron 3 Nano Omni, que es un nuevo miembro de la serie Nemotron 3, integrando razonamiento multimodal unificado en un solo modelo eficiente y de código abierto. Nvidia afirma que los sistemas agentic generalmente necesitan realizar un ciclo de percepción a acción en pantalla, documentos, audio, video y texto, pero aún dependen de cadenas de modelos fragmentadas — tecnologías separadas para visión, audio y texto. Esto aumenta el número de saltos en el razonamiento y la complejidad de la orquestación, elevando los costos de inferencia y debilitando la coherencia del contexto entre modalidades.

Nemotron 3 Nano Omni está diseñado para reemplazar esta pila tecnológica fragmentada de visión, lenguaje y audio, sirviendo como un sub-agente de percepción multimodal y contexto en los sistemas agentic.

En términos de precisión, Nemotron 3 Nano Omni ha logrado resultados líderes en la lista de inteligencia documental, y también lidera en las listas de comprensión de video y audio. En la evaluación de referencia abierta de modelos de comprensión de video MediaPerf, Nemotron 3 Nano Omni logra el mayor rendimiento en cada tarea y obtiene el menor costo de inferencia en tareas de etiquetado a nivel de video.

En cuanto a rendimiento, bajo un umbral fijo de interacción por usuario, para la inferencia de video, Nemotron 3 Nano Omni mantiene un mayor rendimiento total del sistema, logrando hasta aproximadamente 9.2 veces la capacidad efectiva del sistema en comparación con otros modelos omni de código abierto; para la inferencia de múltiples documentos, puede alcanzar hasta aproximadamente 7.4 veces la capacidad efectiva del sistema. Nvidia afirma que este modelo está diseñado para reemplazar las arquitecturas tradicionales de ensamblaje de múltiples modelos, reducir la complejidad y el costo de la inferencia, y promover la aplicación de IA multimodal en escenarios como finanzas, medicina, investigación científica y medios.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado