NVIDIA випустила модель Nemotron3 Nano Omni: здатна обробляти відео, аудіо, зображення та текст уніфіковано, підвищуючи ефективність мультимодального мислення

robot
Генерація анотацій у процесі

BlockBeats повідомляє, 29 квітня, Nvidia офіційно представила Nemotron 3 Nano Omni, це новий член серії Nemotron 3, який об’єднує у собі уніфіковане мультимодальне міркування в один високоефективний відкритий модельний комплекс. Nvidia заявила, що системи агентного типу зазвичай потребують виконання циклу перцепції та дії між екранами, документами, аудіо, відео та текстом, але все ще залежать від фрагментованих ланцюгів моделей — окремих технологічних стеків для візуального, аудіо та текстового аналізу. Це збільшує кількість кроків міркування та складність оркестрування, підвищує вартість міркування і послаблює узгодженість контексту між мультимодальними даними. Nemotron 3 Nano Omni має на меті замінити цю фрагментовану технологічну стеку візуально-мовно-аудіо, виступаючи як мультимодальний сенсорний та контекстуальний субагент у системах агентного типу.

З точки зору точності, Nemotron 3 Nano Omni досягла провідних результатів у рейтингу документальної інтелектуальності, а також у рейтингах відео та аудіо розуміння. У відкритому галузевому бенчмарку MediaPerf для оцінки моделей відео розуміння, Nemotron 3 Nano Omni демонструє найвищу пропускну здатність у кожному завданні та досягає найнижчих витрат на міркування у завданнях з відео-мітками.

З точки зору продуктивності, за фіксованого порогу взаємодії з користувачем, для відео міркування Nemotron 3 Nano Omni підтримує вищу загальну пропускну здатність системи, що дозволяє досягти до 9,2 разів більшої ефективної системної ємності порівняно з іншими відкритими моделями-омні; для багатодокументного міркування — до 7,4 разів. Nvidia заявила, що ця модель має на меті замінити традиційні архітектури з кількох моделей, зменшити складність та вартість міркування і сприяти застосуванню мультимодального ШІ у сферах фінансів, медицини, науки та медіа.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити