Acabei de ver que a Intel disponibilizou no Hugging Face as versões quantizadas em INT4 dos modelos de vídeo Wan 2.2 da Alibaba. Isso é bastante interessante do ponto de vista de otimização de modelos.



Basicamente, a Intel conseguiu reduzir o tamanho dos pesos de cada modelo de forma significativa. Cada peso que ocupava 2 bytes em BF16 agora ocupa apenas 0,5 bytes depois da quantização INT4. Isso significa que o tamanho total cai para aproximadamente um quarto do original. A ferramenta usada foi a AutoRound.

Os três modelos liberados são o T2V-A14B (texto para vídeo), I2V-A14B (imagem para vídeo) e TI2V-5B (entrada híbrida de texto e imagem). Os modelos A14B originais rodam em arquitetura MoE com 27 bilhões de parâmetros totais, sendo 14 bilhões ativados por etapa. Sem a quantização INT4, exigem pelo menos 80GB de VRAM por GPU só para trabalhar com resolução 720p.

O mais prático é o TI2V-5B, um modelo denso que consegue rodar 720p a 24fps em uma GPU 4090 mesmo na forma original. Imagina com a otimização INT4 aplicada.

O detalhe importante é que a Intel ainda não divulgou benchmarks completos sobre consumo de VRAM ou qualidade visual após a quantização INT4. Vai depender de verificação por terceiros mesmo. Pra quem quiser testar, a Intel aponta o branch vllm-omni como a opção de implantação, já que esses modelos não rodam no pipeline principal do vLLM.

É o tipo de otimização que torna esses modelos de vídeo muito mais acessíveis pra quem não tem hardware de ponta.
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar