NVIDIA kali ini benar-benar tidak bermain adil, langsung mengeluarkan monster pemahaman video sumber terbuka


Nemotron 3 Nano Omni, memproses video dengan kecepatan luar biasa: bisa menyelesaikan konten 10 jam dalam 1 jam, 10 kali lebih cepat dari kecepatan pemutaran
Inti utamanya adalah teknologi konvolusi 3D, tidak lagi memindai frame demi frame secara bodoh, melainkan "menelan" data dalam blok, efisiensi langsung maksimal
Ke depan, skenario ini benar-benar menyenangkan:
Mencari orang yang "tidak memakai helm keselamatan dan sedang berdebat" dalam pengawasan 24 jam
Menemukan secara tepat gambar "berdengan suara ombak dan menangkap matahari terbenam" dari ratusan materi
Mendengarkan video mesin beroperasi untuk mendiagnosis suara aneh motor
Hanya beberapa menit untuk menyelesaikan, bahkan menghemat uang untuk Whisper
Namun perlu diingat, teman ini adalah tipe pelajar yang spesialisasinya sempit
Semua poin keahlian difokuskan pada pemahaman multimodal dan efisiensi pemrosesan, jika ingin menggunakannya untuk menulis kode atau melakukan inferensi teks tingkat tinggi, performanya mungkin tidak lebih baik dari model teks ringan tertentu
Kesimpulan: Jangan anggap dia sebagai programmer serba bisa, tapi dalam analisis audio-video, penandaan materi dalam jumlah besar, dia benar-benar dewa di dunia sumber terbuka
Bagi yang mengerjakan AI video, multimodal, teman ini wajib dicoba
Alamat proyek ada di kolom komentar 👇
NVDA0,18%
NANO-3,71%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan