Saya baru saja melihat bahwa Intel telah menyediakan di Hugging Face versi model video Wan 2.2 dari Alibaba yang dikuantisasi dalam INT4. Ini sangat menarik dari sudut pandang pengoptimalan model.



Pada dasarnya, Intel berhasil mengurangi ukuran bobot dari setiap model secara signifikan. Setiap bobot yang sebelumnya memakan 2 byte dalam BF16 sekarang hanya memakan 0,5 byte setelah kuantisasi INT4. Ini berarti total ukuran turun menjadi sekitar seperempat dari aslinya. Alat yang digunakan adalah AutoRound.

Tiga model yang dirilis adalah T2V-A14B (teks ke video), I2V-A14B (gambar ke video) dan TI2V-5B (masukan hibrida teks dan gambar). Model A14B asli berjalan pada arsitektur MoE dengan total 27 miliar parameter, dengan 14 miliar diaktifkan per langkah. Tanpa kuantisasi INT4, mereka membutuhkan setidaknya 80GB VRAM per GPU hanya untuk bekerja dengan resolusi 720p.

Yang paling praktis adalah TI2V-5B, sebuah model padat yang mampu menjalankan 720p pada 24fps di GPU 4090 bahkan dalam bentuk aslinya. Bayangkan dengan optimasi INT4 yang diterapkan.

Detail pentingnya adalah bahwa Intel belum merilis benchmark lengkap tentang konsumsi VRAM atau kualitas visual setelah kuantisasi INT4. Ini akan bergantung pada verifikasi oleh pihak ketiga. Bagi yang ingin mencoba, Intel menunjukkan cabang vllm-omni sebagai opsi penerapan, karena model-model ini tidak berjalan di pipeline utama vLLM.

Ini adalah jenis pengoptimalan yang membuat model video ini jauh lebih terjangkau bagi mereka yang tidak memiliki perangkat keras kelas atas.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan