فريق ميتيونغ تشانغماو يطلق مصدر LongCat-Video-Avatar 1.5، مع إعادة هيكلة لتوليد الصوت والفيديو لتحسين الاستقرار الزمني والمكاني وسرعة الاستنتاج. استبدال wav2vec2 بـ whisper-large-v3، لتعزيز تزامن حركة الشفاه ومرونة اللغات المتعددة؛ من خلال تعزيز التعلم بواسطة GRPO لتقليل الظلال الزائفة للأيدي والإطارات الخاطئة، وزيادة اتساق هوية الفيديو الطويل. اعتماد استنتاج متدفق متعدد المقاطع وسياق سابق، توازن بين الكفاءة والصدق باستخدام DMD2 بتعليم 8 خطوات. يمكن تعميم الإطار ليشمل أنماط الرسوم المتحركة/الحيوانات، يدعم الصوت الأحادي/متعدد القنوات، ترخيص MIT، للاستخدام الأكاديمي بشكل رئيسي، يرجى التحقق من الاستخدام التجاري.

CoinNetwork

2026-05-22 07:03:57

إنشاء الملخص قيد التقدم

أخبار شبكة بي جيه، فريق 长猫 من Meituan قام بفتح مصدر إطار عمل توليد الشخص الرقمي LongCat-Video-Avatar 1.5، وأعاد تصميم خوارزميات استخراج الصوت وتوليد الفيديو، مع التركيز على الاستقرار الزمني والمكاني على مستوى الصناعة وسرعة الاستنتاج. استبدل الإطار مشفر wav2vec2 بمشفر صوت whisper-large-v3، مما حسّن تزامن حركة الفم وحركة الشفاه الديناميكية، وزاد من مرونة توليد حركات الفم متعددة اللغات وعبر اللغات. تم تحسين النموذج من خلال التعلم المعزز بواسطة GRPO، مما قلل من تشوهات اليد والأطراف، وتقليل الإطارات المكررة غير الطبيعية، وزاد من اتساق الهوية في الفيديوهات الطويلة. يستخدم الإطار استنتاج متعدد المقاطع مع تمرير متدرج، حيث يبني سياق زمني عالمي باستخدام الفيديو السابق، للحفاظ على استمرارية هوية الشخصية. أدخل طرف الاستنتاج تقنية تقطير خطوة قليلة DMD2، مما قلل من تكرار إزالة الضوضاء في التوليد إلى 8 خطوات، لتحقيق توازن بين كفاءة الاستنتاج وواقعية الصورة. استندت التقييمات إلى 508 مجموعة من الصور والأصوات المرفقة، حيث جمع 770 مقيّم 13240 قرارًا، وقيم 10 خبراء من زوايا متعددة. يمكن تعميم الإطار على أنماط الرسوم المتحركة والحيوانات، ويدعم إدخال صوت أحادي أو متعدد القنوات، وتم إصدار أوزان النموذج بموجب اتفاقية MIT، وتُعرض المحتويات لأغراض أكاديمية فقط، ويجب التحقق من المحتوى قبل الاستخدام التجاري.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 10

أعجبني
10
11
3
مشاركة

تعليق

إضافة تعليق

MoonlightColdWallet

· 05-22 10:09

GRPO يركز على تفاصيل اليدين بشكل ممتع، المشكلة القديمة لنماذج الانتشار هي كارثة الأصابع

شاهد النسخة الأصليةرد0

BudgetValidator

· 05-22 07:58

whisper-large-v3 وضعه أصبح يتطابق مع حركة الشفاه بشكل أدق بكثير، سابقًا كانت سيناريوهات wav2vec2 متعددة اللغات غالبًا لا تتطابق.

شاهد النسخة الأصليةرد0

GateUser-6319729f

· 05-22 07:31

رخصة MIT تحظى بتقييم جيد، لكن يجب مراجعة شروط الاستخدام التجاري بعناية، لتجنب الوقوع في المشاكل

شاهد النسخة الأصليةرد0

GateUser-af0ea0c9

· 05-22 07:26

تحسين استقرار الزمكان أكثر فائدة بكثير من مجرد زيادة FID، وأخيرًا أصبح توليد الفيديو يتنافس في الاتجاه الصحيح

شاهد النسخة الأصليةرد0

SlippageSailor

· 05-22 07:19

هل تود وضع مجموعة البيانات التي تركز على الأكاديميين؟ أريد أن أرى إذا كان بإمكاننا إعادة الإنتاج.

شاهد النسخة الأصليةرد0

GateUser-f4ae43e9

· 05-22 07:19

تصميم التفسير المتسلسل متعدد المقاطع ذكي، وعدم تعطل الوجه في الفيديو الطويل هو الأمر الأهم.

شاهد النسخة الأصليةرد0

GotLiquidatedAgainLastNight.

· 05-22 07:10

هل من اختار اسم LongCat؟ هل مهندسو Meituan يلتقطون صور القطط أيضًا؟

شاهد النسخة الأصليةرد0

DeltaSmile

· 05-22 07:10

يدعم جميع أوضاع الصوت المتعددة، وهو مناسب جدًا كأداة لصناعة الصوتيات

شاهد النسخة الأصليةرد0

SeaSaltAirdropNotes

· 05-22 07:10

تطابق الهوية أخيرًا أصبح شخص ما يأخذ الأمر بجدية، في السابق كانت النصف الأخير من فيديوهات التبديل الوجوه غالبًا ما يتغير فيها الأشخاص

شاهد النسخة الأصليةرد0

CrystalBallForSentiment

· 05-22 07:10

كم هو مقدار تحسين كفاءة DMD2؟ هل لديك بيانات عن زمن الاستجابة على A100؟

شاهد النسخة الأصليةرد0

عرض المزيد

المواضيع الرائجة
عرض المزيد
#
TradfiTradingChallenge
332.66K درجة الشعبية
#
PlatinumCardCreatorExclusive
120.98K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
49.07K درجة الشعبية
#
#DailyPolymarketHotspot
1.05M درجة الشعبية
#
GateSquarePizzaDay
1.79M درجة الشعبية

مُثبت

خريطة الموقع

ميتوان تفتح مصدر LongCat-Video-Avatar 1.5 إطار العمل للرقم البشري، وتقليل استنتاجه إلى 8 خطوات

المواضيع الرائجة

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

مُثبت