Я щойно побачив, що Intel розмістила на Hugging Face квантовані в INT4 версії відео моделей Wan 2.2 від Alibaba. Це досить цікаво з точки зору оптимізації моделей.



В основному, Intel вдалося суттєво зменшити розмір ваг кожної моделі. Кожна вага, яка займала 2 байти у BF16, тепер займає лише 0,5 байта після квантування в INT4. Це означає, що загальний розмір зменшується приблизно у чотири рази від початкового. Інструментом, який використовувався, була AutoRound.

Три опубліковані моделі — це T2V-A14B (текст до відео), I2V-A14B (зображення до відео) і TI2V-5B (гібридний вхід тексту і зображення). Оригінальні моделі A14B працюють на архітектурі MoE з 27 мільярдами параметрів у цілому, з яких 14 мільярдів активуються за крок. Без квантування INT4 вони потребують щонайменше 80 ГБ VRAM на GPU лише для роботи з роздільною здатністю 720p.

Найзручніше — це TI2V-5B, щільна модель, яка може працювати з 720p на 24fps на GPU 4090 навіть у початковій формі. Уявіть з застосуванням оптимізації INT4.

Важливий момент — Intel ще не опублікувала повних бенчмарків щодо споживання VRAM або якості зображення після квантування в INT4. Це залежатиме від перевірки сторонніми. Для тих, хто хоче протестувати, Intel вказує гілку vllm-omni як варіант розгортання, оскільки ці моделі не працюють у головному pipeline vLLM.

Це той тип оптимізації, який робить ці відео моделі набагато доступнішими для тих, у кого немає передового обладнання.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити