A NVIDIA desta vez realmente não jogou limpo, lançando diretamente um monstro de código aberto para compreensão de vídeo


Nemotron 3 Nano Omni, processa vídeos de forma incrivelmente rápida: consegue fazer em 1 hora o que levaria 10 horas de conteúdo, 10 vezes mais rápido que a velocidade de reprodução
O segredo está na tecnologia de convolução 3D, que não analisa quadro a quadro de forma burra, mas "engole" os dados em blocos, maximizando a eficiência
No futuro, esses cenários serão realmente incríveis:
Encontrar em monitoramento 24 horas pessoas que "não usam capacete de segurança e estão discutindo"
Localizar com precisão em centenas de materiais cenas com "som de ondas do mar e pôr do sol na filmagem"
Diagnosticar ruídos anormais no motor apenas ouvindo um vídeo de funcionamento da máquina
Tudo isso em poucos minutos, economizando até o dinheiro do Whisper
Mas é preciso tomar cuidado, esse cara é um típico estudante que se especializa em uma área
Todos os pontos fortes estão na compreensão multimodal e na eficiência de processamento, se quiser usá-lo para programar ou fazer inferências de textos complexos, seu desempenho pode ser até inferior a alguns modelos leves de texto puro
Conclusão: não o trate como um programador onipotente, mas em cenários práticos como análise de áudio e vídeo, marcação de grandes volumes de material, ele é definitivamente uma lenda no mundo open source
Para quem trabalha com IA em vídeo e multimodalidade, esse é um que precisa testar
O endereço do projeto está na seção de comentários👇
NVDA1,82%
NANO-3,71%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado