Nvidia meluncurkan model Nemotron3 Nano Omni: dapat secara serempak memproses video, audio, gambar, dan teks, meningkatkan efisiensi inferensi multimodal

robot
Pembuatan abstrak sedang berlangsung

BlockBeats berita, 29 April, Nvidia secara resmi meluncurkan Nemotron 3 Nano Omni, yang merupakan anggota baru dari seri Nemotron 3, mengintegrasikan inferensi multimodal yang seragam ke dalam satu model sumber terbuka yang efisien. Nvidia menyatakan bahwa sistem agentic biasanya memerlukan inferensi siklus persepsi ke tindakan tunggal antara layar, dokumen, audio, video, dan teks, tetapi masih bergantung pada rantai model yang terfragmentasi—teknologi visual, audio, dan teks yang berdiri sendiri. Ini meningkatkan jumlah lompatan inferensi dan kompleksitas orkestrasi, meningkatkan biaya inferensi, sekaligus melemahkan konsistensi konteks antar modalitas. Nemotron 3 Nano Omni bertujuan untuk menggantikan tumpukan teknologi visual-bahasa-audio yang terfragmentasi ini, sebagai sub-agen persepsi multimodal dan konteks dalam sistem agentic.

Dari segi akurasi, Nemotron 3 Nano Omni meraih posisi terdepan di daftar papan peringkat kecerdasan dokumen, dan juga unggul di daftar papan peringkat pemahaman video dan audio. Dalam penilaian benchmark industri terbuka MediaPerf untuk pemahaman video, Nemotron 3 Nano Omni mencapai throughput tertinggi di setiap tugas, dan memperoleh biaya inferensi terendah dalam tugas anotasi tingkat video.

Dari segi kinerja, dengan ambang interaksi pengguna tetap, untuk inferensi video, Nemotron 3 Nano Omni mempertahankan throughput sistem total yang lebih tinggi, memungkinkan kapasitas sistem efektif hingga sekitar 9,2 kali lipat dibandingkan model omni sumber terbuka lainnya; untuk inferensi multi-dokumen, mampu mencapai kapasitas sistem efektif hingga sekitar 7,4 kali lipat. Nvidia menyatakan bahwa model ini dirancang untuk menggantikan arsitektur penggabungan model tradisional, mengurangi kompleksitas dan biaya inferensi, serta mendorong penerapan AI multimodal dalam bidang keuangan, kesehatan, penelitian ilmiah, dan media.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan