NVIDIA выпустила модель Nemotron3 Nano Omni: способна объединять обработку видео, аудио, изображений и текста, повышая эффективность мультимодального вывода

robot
Генерация тезисов в процессе

BlockBeats Новости, 29 апреля, Nvidia официально представила Nemotron 3 Nano Omni, это новый член серии Nemotron 3, объединяющий унифицированное мультимодальное рассуждение в один эффективный открытый исходный код модели. Nvidia заявила, что системы агентного типа обычно требуют рассуждений, основанных на цикле восприятия и действия между экраном, документами, аудио, видео и текстом, но всё ещё полагаются на фрагментированные цепочки моделей — отдельные технологические стеки для визуальных, аудио и текстовых данных. Это увеличивает количество прыжков в рассуждении и сложность оркестровки, повышая стоимость рассуждений и одновременно снижая согласованность межмодального контекста. Nemotron 3 Nano Omni предназначен для замены этого фрагментированного визуально-языкового-аудио стека технологий, выступая в роли мультимодального восприятия и контекстного субагента в системах агентного типа.

В плане точности Nemotron 3 Nano Omni занимает лидирующие позиции в рейтинге интеллектуальных документов, а также показывает превосходство в рейтингах понимания видео и аудио. В открытом отраслевом бенчмарке MediaPerf для оценки моделей понимания видео, Nemotron 3 Nano Omni достигает максимальной пропускной способности в каждой задаче и показывает минимальные издержки на рассуждение в задаче видеомаркировки.

В плане производительности при фиксированном пороге взаимодействия с пользователем, для видеорассуждений Nemotron 3 Nano Omni поддерживает более высокий общий системный пропускной поток, достигая до примерно 9,2-кратной эффективной системной емкости по сравнению с другими открытыми omni-моделями; для многодокументальных рассуждений — до примерно 7,4-кратной эффективной системной емкости. Nvidia заявила, что эта модель предназначена для замены традиционных архитектур с несколькими моделями, снижения сложности и стоимости рассуждений, а также для продвижения применения мультимодального ИИ в сферах финансов, медицины, научных исследований и медиа.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить