فريق ميتيون LongCat يطلق مصدر LongCat-Video-Avatar 1.5، مع نشر كامل الشفرة والأوزان. تم استبدال النموذج بـ Whisper-large-v3 لتحسين مزامنة الشفاه متعددة اللغات وتعميم الأسلوب، باستخدام استنتاج متدحرج متعدد المقاطع وتقنية التقطير ذات الخطوات القليلة المستندة إلى DMD2 لتقليل خطوات الاستنتاج إلى 8، مع موازنة بين السرعة والدقة. بعد تقييم 508 عينات من البيانات الأصلية، و770 مقيّمًا، و13240 قرارًا، و10 خبراء تقييم، تم تحسين استقرار التسلسل الزمني، واتساق الهوية، والطبيعية في حركة الشفاه، مع القدرة على التعميم إلى أنماط الرسوم المتحركة والحيوانات، مع دعم أصلي للصوت الأحادي والمتعدد القنوات. مرخص بموجب ترخيص MIT، ويُستخدم بشكل رئيسي للأغراض الأكاديمية، ويجب التحقق من الاستخدام التجاري بشكل منفصل.

MeNews

2026-05-22 08:04:01

إنشاء الملخص قيد التقدم

ME AI رسالة، وفقًا لمراقبة Beating، فريق Meituan LongCat يطلق إطار عمل مفتوح المصدر لتوليد الفيديو والصور الشخصية باستخدام الصوت، LongCat-Video-Avatar 1.5، مع فتح كامل للكود ووزن النموذج. في هذا التحديث، تم استبدال Wav2Vec2 بمشفر الصوت Whisper-Large، بهدف تقديم توافق أكبر مع الهوية في الفيديوهات الطويلة وقدرة أوسع على تعميم الأساليب. تم استبدال إطار العمل بمشفر الصوت Whisper-large-v3 لتحسين تزامن الفم وحركة الشفاه. التحسينات في التمثيل الصوتي مع Whisper-large-v3 زادت بشكل كبير من استقرار توليد حركة الفم متعددة اللغات وعبر اللغات. لتعزيز استقرار التسلسل الزمني، يستخدم الإطار في توليد الفيديو الطويل استنتاجات متداخلة متعددة المقاطع للحفاظ على تماسك هوية الشخصية. أدخلت تقنية تقطير ذات خطوات قليلة تعتمد على DMD2 في طرف الاستنتاج، لتقليل تكرارات إزالة الضوضاء إلى 8 خطوات، مع تسريع الاستنتاج إلى 8 NFE، مع موازنة بين كفاءة الاستنتاج وواقعية الصورة. تم تقييم النموذج بناءً على 508 مجموعة من أزواج المصدر من الصور والصوت. أدخل تقييم الجماهير 770 مقيمًا وجمع 13240 قرارًا، بالإضافة إلى تقييم من 10 خبراء من حيث المعقولية الفيزيائية، والتنسيق، واستقرار التسلسل الزمني، وتوافق الهوية. عرضت النسخة الرسمية مقارنة مباشرة مع HeyGen وKling Avatar 2.0 وOmniHuman-1.5، مع التركيز على تحسين استقرار التسلسل الزمني، وتوافق الهوية، والطبيعية في حركة الفم. بالإضافة إلى الصور الواقعية، يمكن للإطار أن يعمم على أنماط الرسوم المتحركة والحيوانات، ويدعم بشكل أصلي إدخال الصوت الأحادي والمتعدد القنوات. يتم نشر أوزان النموذج بموجب بروتوكول MIT. كما أن صفحة المشروع تتضمن بيانًا أخلاقيًا يوضح أن المحتوى المولد المعروض للاستخدام الأكاديمي فقط، ولا يُسمح بالاستخدام التجاري. يتطلب الاستخدام التجاري الفعلي مراجعة مستقلة للوزن، والكود، والمواد، وحدود المحتوى المولد. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 10

أعجبني
10
12
2
مشاركة

تعليق

إضافة تعليق

GateUser-af0ea0c9

· منذ 6 س

لا تزال بحاجة إلى مناقشة تجارية، إنها نفس الأسلوب القديم للشركات الكبرى في فتح المصدر

شاهد النسخة الأصليةرد0

HedgeHedgeBaby

· منذ 9 س

دعم أصلي متعدد القنوات، هذا ضروري لمن يقطع حلقات البودكاست

شاهد النسخة الأصليةرد0

LendingRateAnxiety

· منذ 10 س

هل يوضح المقال بالتفصيل ما قام به عشرة خبراء من تقييمات محددة؟

شاهد النسخة الأصليةرد0

TheWaveOfRasterization

· منذ 10 س

إشادة بترخيص MIT، ودود للأوساط الأكاديمية

شاهد النسخة الأصليةرد0

GlassBottleFeather

· منذ 10 س

هل أصبح تقطير DMD2 الآن معيارًا قياسيًا؟ أبدو أن جميع الشركات تستخدمه.

شاهد النسخة الأصليةرد0

ReboundAtTheStreetCornerAfter

· منذ 11 س

动物风格是什么鬼，猫说话？

رد0

GateUser-dd8dffab

· منذ 11 س

تحسين الاتساق الهوية أمر حاسم، ففي السابق عند تغيير الزاوية يكون من السهل أن لا يبدو الشخص هو نفسه

شاهد النسخة الأصليةرد0

GateUser-c29c3db9

· منذ 11 س

770 مُقيّم و13240 قرار تقييم، هل حجم هذا التقييم جاد حقًا؟

شاهد النسخة الأصليةرد0

BridgeTroll

· منذ 11 س

تعميم الأسلوب الأنمي هو مفاجأة مخفية، وسيكون عالم الإبداع الثانوي ممتعًا جدًا

شاهد النسخة الأصليةرد0

CandleAfterTheRain

· منذ 11 س

الاستنتاج التدريجي هذا التصميم رائع، لم يتوقف الفيديو الطويل عن العمل

شاهد النسخة الأصليةرد0

عرض المزيد

المواضيع الرائجة
عرض المزيد
#
TradfiTradingChallenge
267.98K درجة الشعبية
#
PlatinumCardCreatorExclusive
79.7K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
48.62K درجة الشعبية
#
#DailyPolymarketHotspot
1.03M درجة الشعبية
#
GateSquarePizzaDay
609.35K درجة الشعبية

مُثبت

خريطة الموقع

ميتوان مفتوح المصدر LongCat-Video-Avatar1.5 إطار العمل للرقمنة البشرية، تقليل استنتاجه إلى 8 خطوات

المواضيع الرائجة

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

مُثبت