私はちょうど、インテルがHugging FaceでAlibabaの動画モデルWan 2.2のINT4量子化バージョンを公開したことを確認しました。これはモデル最適化の観点から非常に興味深いです。



基本的に、インテルは各モデルの重みのサイズを大幅に削減することに成功しました。BF16で2バイトだった各重みは、INT4量子化後にはわずか0.5バイトしか占めなくなります。つまり、総サイズは元の約4分の1に縮小されることを意味します。使用されたツールはAutoRoundです。

公開された3つのモデルは、T2V-A14B (テキストから動画へ)、I2V-A14B (画像から動画へ)、およびTI2V-5B (テキストと画像のハイブリッド入力)です。元のA14Bモデルは、27億のパラメータを持つMoEアーキテクチャで動作し、ステップごとに14億がアクティブです。INT4量子化なしでは、解像度720pで作業するだけでもGPUあたり少なくとも80GBのVRAMが必要です。

最も実用的なのは、TI2V-5Bです。これは密なモデルで、オリジナルのままでもGPU 4090で720pを24fpsで動作させることができます。INT4最適化を適用すれば、さらに効率的になるでしょう。

重要な点は、インテルがまだINT4量子化後のVRAM消費や視覚品質に関する完全なベンチマークを公開していないことです。これは第三者による検証に依存します。試したい人には、インテルはこれらのモデルがvLLMのメインパイプラインでは動作しないため、展開の選択肢としてvllm-omniブランチを推奨しています。

これは、ハードウェアが高性能でなくても、これらの動画モデルをより手軽に利用できるようにする最適化の一例です。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン