Básicamente, Intel logró reducir significativamente el tamaño de los pesos de cada modelo. Cada peso que ocupaba 2 bytes en BF16 ahora ocupa solo 0,5 bytes después de la cuantización INT4. Esto significa que el tamaño total cae aproximadamente a una cuarta parte del original. La herramienta utilizada fue AutoRound.

Los tres modelos liberados son el T2V-A14B (texto a vídeo), I2V-A14B (imagen a vídeo) y TI2V-5B (entrada híbrida de texto e imagen). Los modelos A14B originales funcionan con arquitectura MoE con 27 mil millones de parámetros totales, siendo 14 mil millones activados por paso. Sin la cuantización INT4, requieren al menos 80GB de VRAM por GPU solo para trabajar con resolución 720p.

Lo más práctico es el TI2V-5B, un modelo denso que puede correr a 720p a 24fps en una GPU 4090 incluso en su forma original. Imagínate con la optimización INT4 aplicada.

El detalle importante es que Intel aún no ha divulgado benchmarks completos sobre consumo de VRAM o calidad visual tras la cuantización INT4. Dependerá de verificaciones por terceros. Para quienes quieran probar, Intel señala la rama vllm-omni como la opción de implementación, ya que estos modelos no funcionan en el pipeline principal de vLLM.

Es el tipo de optimización que hace estos modelos de vídeo mucho más accesibles para quienes no tienen hardware de punta.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
Gate13thAnniversaryLive
1.19M Popularidad
#
WCTCTradingChallengeShare8MUSDT
790.26K Popularidad
#
BitcoinBouncesBack
204.96K Popularidad
#
IsraelStrikesIranBTCPlunges
30.66K Popularidad
#
EthereumMemeSeasonReturns
2M Popularidad

Anclado

Acabo de ver que Intel ha puesto a disposición en Hugging Face las versiones cuantizadas en INT4 de los modelos de vídeo Wan 2.2 de Alibaba. Esto es bastante interesante desde el punto de vista de optimización de modelos.

Temas de actualidad

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Anclado