Технический отчет, веса, демон — всё выложено, сравнение с Kling-Foley тоже не уступает, в открытом сообществе наконец появился видеодинамический звуковой фреймворк, который стоит внимания.

Посмотреть Оригинал
BlockBeatNews
Xiaomi выпустила открытый исходный код модели озвучивания видео ControlFoley, выбор звука решает пользователь
Beating监测下,小米团队开源视频音效框架ControlFoley,强调可控性:按画面、文本或参考音频生成声音,并可改声风格同时保持音画同步。底层采用改造自CAV-MAE的时空音视频编码器,实施时间-音色解耦。多任务评估达到开源SOTA,且在与 Kling-Foley 的对比中具竞争力,但在 Kling-Audio-Eval 和 MovieGen-Audio-Bench 的部分 KL 指标上仍有差距。项目已公开技术报告、代码、权重与Demo。
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено