NVIDIA merilis Nemotron3NanoOmni, mengintegrasikan inferensi multimodal menjadi satu model sumber terbuka yang efisien, menggantikan tumpukan teknologi visual, audio, dan teks yang terfragmentasi, meningkatkan konsistensi inferensi dan efisiensi biaya. Dalam penilaian pemahaman dokumen, video, dan audio serta tolok ukur MediaPerf, model ini berada di peringkat teratas, dan throughput serta kapasitas inferensi video dan multi-dokumen secara signifikan unggul, bertujuan mendorong aplikasi multimodal di bidang keuangan, kesehatan, penelitian ilmiah, media, dan lainnya.

BlockBeatNews

2026-04-28 16:35:44

Pembuatan abstrak sedang berlangsung

BlockBeats berita, 29 April, Nvidia secara resmi meluncurkan Nemotron 3 Nano Omni, yang merupakan anggota baru dari seri Nemotron 3, mengintegrasikan inferensi multimodal yang seragam ke dalam satu model sumber terbuka yang efisien. Nvidia menyatakan bahwa sistem agentic biasanya memerlukan inferensi siklus persepsi ke tindakan tunggal antara layar, dokumen, audio, video, dan teks, tetapi masih bergantung pada rantai model yang terfragmentasi—teknologi visual, audio, dan teks yang berdiri sendiri. Ini meningkatkan jumlah lompatan inferensi dan kompleksitas orkestrasi, meningkatkan biaya inferensi, sekaligus melemahkan konsistensi konteks antar modalitas. Nemotron 3 Nano Omni bertujuan untuk menggantikan tumpukan teknologi visual-bahasa-audio yang terfragmentasi ini, sebagai sub-agen persepsi multimodal dan konteks dalam sistem agentic.

Dari segi akurasi, Nemotron 3 Nano Omni meraih posisi terdepan di daftar papan peringkat kecerdasan dokumen, dan juga unggul di daftar papan peringkat pemahaman video dan audio. Dalam penilaian benchmark industri terbuka MediaPerf untuk pemahaman video, Nemotron 3 Nano Omni mencapai throughput tertinggi di setiap tugas, dan memperoleh biaya inferensi terendah dalam tugas anotasi tingkat video.

Dari segi kinerja, dengan ambang interaksi pengguna tetap, untuk inferensi video, Nemotron 3 Nano Omni mempertahankan throughput sistem total yang lebih tinggi, memungkinkan kapasitas sistem efektif hingga sekitar 9,2 kali lipat dibandingkan model omni sumber terbuka lainnya; untuk inferensi multi-dokumen, mampu mencapai kapasitas sistem efektif hingga sekitar 7,4 kali lipat. Nvidia menyatakan bahwa model ini dirancang untuk menggantikan arsitektur penggabungan model tradisional, mengurangi kompleksitas dan biaya inferensi, serta mendorong penerapan AI multimodal dalam bidang keuangan, kesehatan, penelitian ilmiah, dan media.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
WCTCTradingKingPK
338.22K Popularitas
#
CryptoMarketsDipSlightly
241.99K Popularitas
#
IsraelStrikesIranBTCPlunges
35.51K Popularitas
#
#DailyPolymarketHotspot
681.66K Popularitas
#
StrategyAccumulates2xMiningRate
139.45M Popularitas

Sematkan

peta situs

Nvidia meluncurkan model Nemotron3 Nano Omni: dapat secara serempak memproses video, audio, gambar, dan teks, meningkatkan efisiensi inferensi multimodal

Topik Trending

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

Sematkan