Ця стаття пропонує впровадити у фазу інференції багато-деревну пошукову стратегію Монте-Карло — рамковий підхід Planning at Inference, який розглядає генерацію довгого відео як послідовну задачу прийняття рішень, використовуючи передбачувальне відслідковування та зворотне поширення нагород для оцінки різних фрагментів, значно пом’якшуючи семантичний зсув і накопичення помилок при сегментації. Багатодеревна структура підвищує ефективність пошуку і може слугувати як повністю вставна оптимізація під час інференції без необхідності донавчання базової моделі. У експериментах Cosmos-Predict2 було створено понад 20 секунд високоякісного послідовного відео, яке перевищує показники жадібного/обмежувального пошуку та Best-of-N за показниками стійкості об’єктів, часової послідовності та відповідності тексту; у порівнянні з Sora та Kling, час зростає на 18% і 47% відповідно, при збереженні якості зображення. Хоча обчислювальні витрати високі, за умови покращення базової моделі та апаратного забезпечення цей підхід має потенціал просунути генерацію довгого відео до рівня інженерної реалізації.

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
ShareYourUSStocksWinNvidia
23.95M Популярність
#
WinGoldBarsWithGrowthPoints
1.28M Популярність
#
IsraelStrikesIranBTCPlunges
52.23K Популярність
#
NvidiaSurges6PercentToRecordHigh
2.87M Популярність
#
AnthropicFilesConfidentialIPO
483.58K Популярність

Закріплено

карта сайту

Популярні теми

ShareYourUSStocksWinNvidia

WinGoldBarsWithGrowthPoints

IsraelStrikesIranBTCPlunges

NvidiaSurges6PercentToRecordHigh

AnthropicFilesConfidentialIPO

Закріплено