Whisper から DMD2 への蒸留、技術スタックがかなりしっかりしている、多言語とアニメ風の汎化は私のような二次創作に非常に魅力的だ。

原文表示
MeNews
美团オープンソースLongCat-Video-Avatar1.5デジタル人フレームワーク推論を8ステップに短縮
美团 LongCat チームは LongCat-Video-Avatar 1.5 をオープンソース化し、コードと重みを全面的に公開しました。 Whisper-large-v3 を採用して多言語の口型同期とスタイルの汎用性を向上させ、多断片のローリング推論と DMD2 に基づく少ステップ蒸留により推論を 8 ステップに削減し、速度と忠実度の両立を実現しました。 508 のソースデータ、770 の評価者による 13240 の判定、10 名の専門家による評価により、時間的安定性、アイデンティティの一貫性、自然な口型が著しく向上し、アニメや動物スタイルにも汎用化可能であり、ネイティブにシングル/マルチチャネルの音声に対応しています。 MIT ライセンス、学術利用を主目的とし、商用利用には別途確認が必要です。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め