NVIDIA lanza Nemotron3NanoOmni, que integra el razonamiento multimodal en un solo modelo eficiente y de código abierto, reemplazando las pilas tecnológicas fragmentadas de visión, audio y texto, mejorando la coherencia del razonamiento y la relación costo-beneficio. En las evaluaciones de comprensión de documentos, videos y audio, así como en el estándar MediaPerf, ocupa el primer lugar, y además, su rendimiento y capacidad en razonamiento de video y múltiples documentos son significativamente superiores, con el objetivo de impulsar aplicaciones multimodales en finanzas, salud, investigación, medios y otros campos.

BlockBeatNews

2026-04-28 16:35:44

Generación de resúmenes en curso

BlockBeats Noticias, 29 de abril, Nvidia lanza oficialmente Nemotron 3 Nano Omni, que es un nuevo miembro de la serie Nemotron 3, integrando razonamiento multimodal unificado en un solo modelo eficiente y de código abierto. Nvidia afirma que los sistemas agentic generalmente necesitan realizar un ciclo de percepción a acción en pantalla, documentos, audio, video y texto, pero aún dependen de cadenas de modelos fragmentadas — tecnologías separadas para visión, audio y texto. Esto aumenta el número de saltos en el razonamiento y la complejidad de la orquestación, elevando los costos de inferencia y debilitando la coherencia del contexto entre modalidades.

Nemotron 3 Nano Omni está diseñado para reemplazar esta pila tecnológica fragmentada de visión, lenguaje y audio, sirviendo como un sub-agente de percepción multimodal y contexto en los sistemas agentic.

En términos de precisión, Nemotron 3 Nano Omni ha logrado resultados líderes en la lista de inteligencia documental, y también lidera en las listas de comprensión de video y audio. En la evaluación de referencia abierta de modelos de comprensión de video MediaPerf, Nemotron 3 Nano Omni logra el mayor rendimiento en cada tarea y obtiene el menor costo de inferencia en tareas de etiquetado a nivel de video.

En cuanto a rendimiento, bajo un umbral fijo de interacción por usuario, para la inferencia de video, Nemotron 3 Nano Omni mantiene un mayor rendimiento total del sistema, logrando hasta aproximadamente 9.2 veces la capacidad efectiva del sistema en comparación con otros modelos omni de código abierto; para la inferencia de múltiples documentos, puede alcanzar hasta aproximadamente 7.4 veces la capacidad efectiva del sistema. Nvidia afirma que este modelo está diseñado para reemplazar las arquitecturas tradicionales de ensamblaje de múltiples modelos, reducir la complejidad y el costo de la inferencia, y promover la aplicación de IA multimodal en escenarios como finanzas, medicina, investigación científica y medios.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
340.25K Popularidad
#
CryptoMarketsDipSlightly
244.84K Popularidad
#
IsraelStrikesIranBTCPlunges
35.53K Popularidad
#
#DailyPolymarketHotspot
683.65K Popularidad
#
StrategyAccumulates2xMiningRate
139.46M Popularidad

Anclado

NVIDIA lanza el modelo Nemotron3 Nano Omni: puede procesar unificado video, audio, imágenes y texto, mejorando la eficiencia del razonamiento multimodal

Temas de actualidad

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

Anclado