NVIDIA esta vez realmente no juega limpio, lanzando directamente una bestia de código abierto para comprensión de video


Nemotron 3 Nano Omni, procesa videos a una velocidad increíble: puede completar 10 horas de contenido en solo una hora, ¡10 veces más rápido que la reproducción normal!
El núcleo se basa en tecnología de convolución 3D, ya no escanea cuadro por cuadro de manera tonta, sino que " devora" datos en bloques, maximizando la eficiencia
En el futuro, estos escenarios serán realmente geniales:
Buscar en monitoreo las personas que "no llevan casco de seguridad y están discutiendo"
Localizar con precisión en cientos de materiales la escena con "sonido de olas y puesta de sol"
Diagnosticar ruidos anómalos en motores solo con escuchar un video de funcionamiento de la máquina
En unos minutos te lo resuelve, incluso ahorrando dinero en Whisper
Pero hay que tener en cuenta, que este tipo es un típico estudiante con especialización limitada
Sus habilidades están todas centradas en comprensión y procesamiento multimodal, si quieres usarlo para programar o hacer razonamiento textual avanzado, puede que su rendimiento sea incluso peor que algunos modelos ligeros de texto puro
Conclusión: no lo tomes como un programador todoterreno, pero en escenarios prácticos como análisis de audio y video, etiquetado masivo de materiales, es definitivamente una bestia en el mundo open source
Para los hermanos que trabajan en IA de video y multimodal, esto es algo que hay que probar
La dirección del proyecto está en los comentarios 👇
NVDA1,52%
NANO-3,71%
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado