На етапі логіки додається планування, базова модель не змінюється. Така швидка та зручна оптимізація, якщо б обчислювальна потужність зросла, довгі відео можна було б створювати справжнім інженерним процесом, а не алхімією.

Переглянути оригінал
BlockBeatNews
Впровадження пошуку AlphaGo, новий каркас генерації відео MCTS, довжина довгого відео перевищує Sora
Ця стаття пропонує впровадити у фазу інференції багато-деревну пошукову стратегію Монте-Карло — рамковий підхід Planning at Inference, який розглядає генерацію довгого відео як послідовну задачу прийняття рішень, використовуючи передбачувальне відслідковування та зворотне поширення нагород для оцінки різних фрагментів, значно пом’якшуючи семантичний зсув і накопичення помилок при сегментації. Багатодеревна структура підвищує ефективність пошуку і може слугувати як повністю вставна оптимізація під час інференції без необхідності донавчання базової моделі. У експериментах Cosmos-Predict2 було створено понад 20 секунд високоякісного послідовного відео, яке перевищує показники жадібного/обмежувального пошуку та Best-of-N за показниками стійкості об’єктів, часової послідовності та відповідності тексту; у порівнянні з Sora та Kling, час зростає на 18% і 47% відповідно, при збереженні якості зображення. Хоча обчислювальні витрати високі, за умови покращення базової моделі та апаратного забезпечення цей підхід має потенціал просунути генерацію довгого відео до рівня інженерної реалізації.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено