HappyHorse تتصدر بشكل مجهول اختبار الفيديو الذكي، ويُشتبه في أن كل من علي تين وتاندي.ai قد تورطا

robot
إنشاء الملخص قيد التقدم

وفقًا لمتابعة 1M AI News، صعد نموذج مجهول يُدعى HappyHorse-1.0 إلى القمة الأسبوع الماضي على منصة تقييم مقاطع الفيديو بالذكاء الاصطناعي Artificial Analysis، وذلك في ترتيب Video Arena. وفي مساري تحويل النص إلى فيديو وتحويل الصورة إلى فيديو (فئة بدون صوت) حقق المركز الأول في كليهما، ليزيح Seedance 2.0 إلى المرتبة الثانية. وفي الفئات التي تتضمن صوتًا، ما زالت Seedance 2.0 تتقدم بفارق بسيط. دون مؤتمر إطلاق، دون مدونة تقنية، وبدون اسم شركة، وحتى الآن لم يعلن أي طرف رسميًا عن نسبته علنًا.

يستند ترتيب Video Arena إلى نظام اختبارات Elo العمياء؛ يقوم المستخدمون باختيار أفضلية مقطعيْن مولَّديْن بالتصويت دون معرفة هوية النموذج. مدة ظهور HappyHorse في الترتيب أقصر، وعدد عينات المقارنة يبلغ نحو 3500 مرة، أي أقل من نصف Seedance 2.0، كما أن فاصل الثقة أوسع (±12-13 نقطة). لكن على الرغم من ذلك، فإن هامش الصدارة في مسار بدون صوت (حوالي 76 نقطة لتحويل النص إلى فيديو، وحوالي 48 نقطة لتحويل الصورة إلى فيديو) يظل بعيدًا جدًا عن نطاق الخطأ.

استنادًا إلى ترتيب اللغات على الموقع الرسمي (اللغة الصينية والكانتونية قبل الإنجليزية) وبالنسبة إلى نكتة عام 2026 في السنة القمرية لـ HappyHorse، يعتقد الوسط المهني أن النموذج من فريق صيني. وهناك رأيان شائعان رئيسيان:

  1. تذكر عدة قنوات إعلامية متخصصة في الصناعة أن النموذج صادر عن مختبر المستقبل للحياة التابع لمجموعة علي بابا Taotian، يقوده المسؤول Zhang Di. كان Zhang Di سابقًا نائبًا للتقنية في KuaiShou، ومنذ عام 2024 يقود تطوير AI الخاص بـ KeLing، وأصدر في أبريل 2025 نسخة KeLing 2.0 Master، ثم عاد إلى علي بابا في نوفمبر من العام نفسه
  2. أجرى مستخدم X Vigo Zhao مقارنة تفصيلية ووجد أن HappyHorse يتطابق تمامًا في عدة مؤشرات معيارية مع daVinci-MagiHuman، وهو نموذج تم إصداره كمصدر مفتوح في مارس هذا العام من قِبل شركة ناشئة في مجال فيديوهات AI تُدعى Sand.ai. كما أن بنية الموقع الرسمي متشابهة جدًا. تأسست Sand.ai على يد Cao Yue، المؤلف الأول لـ Swin Transformer، ويُشار إليها في الوسط المهني باعتبارها «DeepSeek في عالم فيديوهات AI»

يُظهر الموقع الرسمي لـ HappyHorse أن النموذج يحتوي على 15 مليار معلمة، و40 طبقة من محولات الانتباه الذاتي، ويعتمد بنية Transfusion (توحيد المعالجة داخل النموذج نفسه لتنبؤ النص بشكل ذاتي رجوعي وتوليد انتشار صوت وفيديو). يستغرق 8 خطوات في الاستدلال، ويُخرج فيديو بدقة 1080p مع صوت متزامن، ويدعم مزامنة أفواه نُطْقية بسبع لغات هي الصينية والإنجليزية واليابانية والكورية والألمانية والفرنسية والكانتونية، وهو مفتوح المصدر بالكامل ويتيح الاستخدام التجاري.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.24Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.25Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.31Kعدد الحائزين:2
    0.14%
  • تثبيت