wav2vec2からwhisper-large-v3への移行により、多言語の口型同期のロバスト性が顕著に向上し、学術と商用の境界線を見極める必要がある

原文表示
CoinNetwork
美团オープンソースLongCat-Video-Avatar 1.5デジタル人フレームワーク推論を8ステップに短縮
美团長猫チームはLongCat-Video-Avatar 1.5をオープンソース化し、音声と映像の生成を再構築して時間空間の安定性と推論速度を向上させました。wav2vec2をwhisper-large-v3に置き換え、口の動きの同期と多言語のロバスト性を向上させました;GRPO強化学習を通じて手の偽影とフレームの誤りを低減し、長い動画のアイデンティティの一貫性を強化しました。複数のセグメントを用いたローリング推論と前方のコンテキストを採用し、8ステップ蒸留のDMD2が効率と忠実度のバランスを取ります。このフレームワークはアニメや動物スタイルに一般化可能で、単一/多チャンネルの音声をサポートし、MITライセンスの下で学術利用を主とし、商用利用の場合は確認が必要です。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め