HappyHorse تتصدر اختبار الفيديو الذكي بشكل مجهول، وتوتيان من علي بابا وSand.ai تحت التدقيق

robot
إنشاء الملخص قيد التقدم

وفقًا لمتابعة 1M AI News، تصدّر نموذجٌ مجهولٌ باسم HappyHorse-1.0 ترتيب “Video Arena” على منصة تقييم مقاطع الفيديو بالذكاء الاصطناعي Artificial Analysis الأسبوع الماضي، ليحصل على المركز الأول في فئتي تحويل النص إلى فيديو وتحويل الصورة إلى فيديو (مع استبعاد الصوت). وهذا دفع ByteDance إلى إزاحة Seedance 2.0 إلى المركز الثاني. وفي فئة الصوت، لا تزال Seedance 2.0 تتقدم بفارق ضئيل. لم تُعقد أي مؤتمرات صحفية، ولم توجد أي تدوينات تقنية، ولا توجد أي نسب للشركة، ولم يُطالب بها أحد علنًا حتى الآن. يعتمد ترتيب “Video Arena” على نظام اختبار عمياني قائم على Elo، حيث يصوّت المستخدمون لصالح الفيديو المفضل لديهم من بين خيارين يتم توليدهما دون معرفة هوية النموذج. كان HappyHorse ضمن القائمة لفترة قصيرة، بحجم عينة يبلغ نحو 3,500، وهو أقل من نصف حجم عينة Seedance 2.0، ما أدى إلى فترة ثقة واسعة (±12-13 نقطة). ومع ذلك، فإن صدارة فئة “بدون صوت” (حوالي 76 نقطة لتحويل النص إلى فيديو وحوالي 48 نقطة لتحويل الصورة إلى فيديو) تتجاوز بكثير هامش الخطأ. وبناءً على ترتيب اللغات في الموقع الرسمي (حيث يُذكر الصينية والكانتونية قبل الإنجليزية) وعلى إشارة “HappyHorse” إلى “سنة الحصان” في 2026، يتكهن المطلعون في الصناعة بأن النموذج يأتي من فريق صيني. توجد نظريتان رئيسيتان:

  1. تدّعي عدة وسائل إعلامية صناعية أن النموذج صادر من “Taotian Group” التابعة لـ Alibaba، ضمن “Future Life Lab”، بقيادة Zhang Di، الذي كان سابقًا نائب الرئيس للتكنولوجيا في Kuaishou وسيقود تطوير Keling AI بدءًا من عام 2024، مع إصدار مخطط لـ Keling 2.0 Master Edition في أبريل 2025. وفي نوفمبر من العام نفسه، سيعود إلى Alibaba.
  2. أجرى المستخدم Vigo Zhao مقارنةً تفصيلية ووجد أن HappyHorse يطابق بالكامل عدة مؤشرات معيارية لنموذج daVinci-MagiHuman، الذي أطلقته شركة ناشئة للفيديو بالذكاء الاصطناعي Sand.ai كمصدر مفتوح في مارس من هذا العام، كما أن بنية مواقع الويب الرسمية متشابهة جدًا أيضًا. تأسست Sand.ai على يد Cao Yue، المؤلف الأول لـ Swin Transformer، ويُشار إليها في الصناعة باعتبارها “DeepSeek الخاص بفيديو الذكاء الاصطناعي”. تشير الصفحة الرسمية لـ HappyHorse إلى أن النموذج يضم 15 مليار مُعلم، و40 طبقة من مُحوّلات الانتباه الذاتي، ويستخدم بنية Transfusion (تجمع بين التنبؤ التوليدي النصي بشكل ذاتي وتوليد تشتّت صوت الفيديو داخل النموذج نفسه)، ويعتمد 8 خطوات للاستدلال، ويُخرج فيديو بدقة 1080p مع صوت متزامن، ويدعم مطابقة الشفاه في سبع لغات: الصينية والإنجليزية واليابانية والكورية والألمانية والفرنسية والكانتونية. وهو مفتوح المصدر بالكامل ويدعم الاستخدام التجاري.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت