Fondamentalement, Intel a réussi à réduire la taille des poids de chaque modèle de manière significative. Chaque poids qui occupait 2 octets en BF16 ne prend maintenant que 0,5 octet après la quantification INT4. Cela signifie que la taille totale tombe à environ un quart de l'original. L'outil utilisé était AutoRound.

Les trois modèles libérés sont le T2V-A14B (texte vers vidéo), I2V-A14B (image vers vidéo) et TI2V-5B (entrée hybride texte et image). Les modèles A14B originaux fonctionnent en architecture MoE avec 27 milliards de paramètres au total, dont 14 milliards activés par étape. Sans la quantification INT4, ils nécessitent au moins 80 Go de VRAM par GPU juste pour travailler en résolution 720p.

Le plus pratique est le TI2V-5B, un modèle dense capable de faire tourner du 720p à 24 fps sur une GPU 4090 même dans sa forme originale. Imaginez avec l'optimisation INT4 appliquée.

Le détail important est qu'Intel n'a pas encore publié de benchmarks complets sur la consommation de VRAM ou la qualité visuelle après la quantification INT4. Cela dépendra d'une vérification par des tiers. Pour ceux qui veulent tester, Intel indique la branche vllm-omni comme option de déploiement, car ces modèles ne tournent pas sur le pipeline principal de vLLM.

C'est le genre d'optimisation qui rend ces modèles vidéo beaucoup plus accessibles à ceux qui ne disposent pas de matériel de pointe.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
Gate13thAnniversaryLive
1.18M Popularité
#
WCTCTradingChallengeShare8MUSDT
787.68K Popularité
#
BitcoinBouncesBack
161.09K Popularité
#
IsraelStrikesIranBTCPlunges
30.66K Popularité
#
EthereumMemeSeasonReturns
1.99M Popularité

Épingler

Je viens de voir qu'Intel a mis à disposition sur Hugging Face les versions quantifiées en INT4 des modèles vidéo Wan 2.2 d'Alibaba. C'est assez intéressant du point de vue de l'optimisation des modèles.

Sujets populaires

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Épingler