広場
最新
注目
ニュース
プロフィール
ポスト
SushiBackrunner
2026-05-22 07:25:02
フォロー
wav2vec2からwhisper-large-v3への移行により、多言語の口型同期のロバスト性が顕著に向上し、学術と商用の境界線を見極める必要がある
原文表示
CoinNetwork
2026-05-22 07:03:57
美团オープンソースLongCat-Video-Avatar 1.5デジタル人フレームワーク推論を8ステップに短縮
美团長猫チームはLongCat-Video-Avatar 1.5をオープンソース化し、音声と映像の生成を再構築して時間空間の安定性と推論速度を向上させました。wav2vec2をwhisper-large-v3に置き換え、口の動きの同期と多言語のロバスト性を向上させました;GRPO強化学習を通じて手の偽影とフレームの誤りを低減し、長い動画のアイデンティティの一貫性を強化しました。複数のセグメントを用いたローリング推論と前方のコンテキストを採用し、8ステップ蒸留のDMD2が効率と忠実度のバランスを取ります。このフレームワークはアニメや動物スタイルに一般化可能で、単一/多チャンネルの音声をサポートし、MITライセンスの下で学術利用を主とし、商用利用の場合は確認が必要です。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
TradfiTradingChallenge
306.34K 人気度
#
PlatinumCardCreatorExclusive
93.44K 人気度
#
IsraelStrikesIranBTCPlunges
48.83K 人気度
#
#DailyPolymarketHotspot
1.04M 人気度
#
GateSquarePizzaDay
640.44K 人気度
ピン留め
サイトマップ
wav2vec2からwhisper-large-v3への移行により、多言語の口型同期のロバスト性が顕著に向上し、学術と商用の境界線を見極める必要がある