В основному, Intel вдалося суттєво зменшити розмір ваг кожної моделі. Кожна вага, яка займала 2 байти у BF16, тепер займає лише 0,5 байта після квантування в INT4. Це означає, що загальний розмір зменшується приблизно у чотири рази від початкового. Інструментом, який використовувався, була AutoRound.

Три опубліковані моделі — це T2V-A14B (текст до відео), I2V-A14B (зображення до відео) і TI2V-5B (гібридний вхід тексту і зображення). Оригінальні моделі A14B працюють на архітектурі MoE з 27 мільярдами параметрів у цілому, з яких 14 мільярдів активуються за крок. Без квантування INT4 вони потребують щонайменше 80 ГБ VRAM на GPU лише для роботи з роздільною здатністю 720p.

Найзручніше — це TI2V-5B, щільна модель, яка може працювати з 720p на 24fps на GPU 4090 навіть у початковій формі. Уявіть з застосуванням оптимізації INT4.

Важливий момент — Intel ще не опублікувала повних бенчмарків щодо споживання VRAM або якості зображення після квантування в INT4. Це залежатиме від перевірки сторонніми. Для тих, хто хоче протестувати, Intel вказує гілку vllm-omni як варіант розгортання, оскільки ці моделі не працюють у головному pipeline vLLM.

Це той тип оптимізації, який робить ці відео моделі набагато доступнішими для тих, у кого немає передового обладнання.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
Gate13thAnniversaryLive
1.21M Популярність
#
WCTCTradingChallengeShare8MUSDT
796.51K Популярність
#
BitcoinBouncesBack
212.51K Популярність
#
IsraelStrikesIranBTCPlunges
30.66K Популярність
#
EthereumMemeSeasonReturns
2M Популярність

Закріпити

карта сайту

Я щойно побачив, що Intel розмістила на Hugging Face квантовані в INT4 версії відео моделей Wan 2.2 від Alibaba. Це досить цікаво з точки зору оптимізації моделей.

Популярні теми

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Закріпити