НВИДИА в этот раз действительно нарушила правила, прямо выпустив открытого исходного кода монстра для понимания видео


Nemotron 3 Nano Omni, обработка видео невероятно быстрая: за 1 час можно обработать 10 часов видео, в 10 раз быстрее воспроизведения
Ключ в 3D сверточных технологиях, больше не по кадрам, а "поглощая" данные блоками, эффективность достигла максимума
В будущем эти сценарии действительно будут удобны:
Поиск в круглосуточной системе мониторинга "людей без каски и спорящих"
Точное определение сцен с "шумом волн и закатом" среди сотен материалов
Диагностика неисправностей мотора по звуку его работы
Несколько минут — и готово, даже экономия на Whisper
Но стоит помнить, что этот парень — типичный специалист по узкому профилю
Все навыки сосредоточены на мультимодальном понимании и эффективности обработки, для написания кода или сложных текстовых задач его результат может уступать легким моделям только для текста
Вывод: не стоит считать его универсальным программистом, но в практических сценариях анализа видео и аудио, маркировки огромных массивов данных он точно — гений в открытом исходном коде
Для тех, кто занимается AI видео и мультимодальностью, это обязательно нужно попробовать
Адрес проекта в комментариях 👇
NVDA1,79%
NANO-3,71%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено