英伟达はNemotron3 Nano Omniモデルを発表:動画、音声、画像、テキストを統合処理可能で、多モーダル推論の効率を向上

robot
概要作成中

BlockBeats のニュース、4 月 29 日、NVIDIA は正式に Nemotron 3 Nano Omni を発表しました。これは Nemotron 3 シリーズの新メンバーであり、統一された多モーダル推論を単一の効率的なオープンソースモデルに統合しています。NVIDIA は、agentic システムは通常、画面、ドキュメント、音声、映像、テキスト間で単一の知覚から行動へのループ推論を必要としますが、それでも断片化されたモデルチェーンに依存していると述べています——視覚、音声、テキストそれぞれが独立した技術スタックです。これにより推論の跳躍数とオーケストレーションの複雑さが増し、推論コストが高まり、クロスモーダルのコンテキストの一貫性が弱まります。Nemotron 3 Nano Omni は、この断片化された視覚・言語・音声技術スタックに代わるものであり、agentic システムにおける多モーダル知覚とコンテキストサブエージェント(sub-agent)として機能します。

精度の面では、Nemotron 3 Nano Omni はドキュメントインテリジェンスのランキングでリードを獲得し、映像と音声理解のランキングでも同様にリードしています。評価用のオープン業界ベンチマーク MediaPerf において、Nemotron 3 Nano Omni は各タスクで最高のスループットを実現し、映像レベルのアノテーションタスクでは最も低い推論コストを達成しています。

性能の面では、固定された各ユーザーインタラクション閾値の下で、映像推論において Nemotron 3 Nano Omni はより高い総システムスループットを維持し、他のオープンソース omni モデルと比較して最大約 9.2 倍の有効システム容量を実現可能です。複数ドキュメント推論においても最大約 7.4 倍の有効システム容量を達成できます。NVIDIA は、このモデルは従来のマルチモデル結合アーキテクチャに代わるものであり、推論の複雑さとコストを削減し、金融、医療、研究、メディアなどのシナリオにおける多モーダル AI の応用を促進すると述べています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン