Le mystérieux « Happy Horse » débarque en force, écrasant Seedance 2.0, l'IA vidéo a-t-elle encore changé la donne ?

robot
Création du résumé en cours

Mardi tard dans la nuit, le monde de l’IA a explosé.

Sur le classement Video Arena de la plateforme d’évaluation d’IA Artificial Analysis, mondialement connue, un mystérieux modèle de génération de vidéos portant le code 「HappyHorse-1.0」 a fait une entrée discrète — sans conférence de lancement, sans blogue technique, sans aucun soutien officiel d’une entreprise, et a directement pris la première place avec une démonstration écrasante.

Au moment de la publication, dans la catégorie génération de vidéo à partir de texte, les points Elo ont grimpé jusqu’à 1357 points, avec 84 points d’avance sur Seedance 2.0, qui n’est monté sur le trône que depuis cinq jours. L’écart avec la troisième et la quatrième place, SkyReels V4 et Kling 3.0 1080p Pro, dépasse plus de 100 points. Avec un seul modèle, HappyHorse-1.0 a creusé un écart entre toute la chaîne de niveau de l’industrie.

La catégorie génération de vidéo à partir d’image a même réalisé un score terrifiant de 1402, en battant l’historique de ce classement.

La seule déception relative, c’est qu’au classement global « vidéo + audio », qui inclut des effets sonores natifs, HappyHorse occupe la deuxième place, juste derrière Seedance 2.0.

Ce classement n’est pas si facile à bidonner

Beaucoup de gens ont d’abord pensé : ce n’est sûrement pas du “scoring” truqué ?

Cette suspicion n’est pas dénuée de fondement. Mais le mécanisme de classement d’Artificial Analysis fait qu’il est plus difficile à manipuler que les simples classements de scores — tous les classements proviennent de votes aveugles « choix à l’aveugle entre deux options » d’utilisateurs réels à travers le monde. Les utilisateurs, sans aucune information préalable, comparent et choisissent entre deux résultats générés, puis l’ensemble est finalement agrégé en points Elo.

L’équipe du modèle ne peut pas se contenter de tricher en répondant aux questions ; ce qui est reflété, ce sont les préférences les plus réelles perçues par les gens ordinaires après avoir regardé.

Bien sûr, d’autres ont aussi fait remarquer que, dans les échantillons de tests en aveugle d’Artificial Analysis, la part des contenus de génération d’images de personnes et des contenus de type narration dépasse 60 %, et que HappyHorse possède naturellement un avantage dans les scènes avec des personnes. À certains égards, cela pourrait expliquer un décalage entre les scores d’évaluation et la capacité globale réelle.

Les discussions sur X se sont donc divisées en deux camps : les sceptiques estiment qu’il reste un écart visible entre HappyHorse et Seedance 2.0 en matière de détails des personnages et de continuité dynamique ; les supporters, eux, placent beaucoup d’espoir dans son potentiel, en particulier en attendant qu’elle résolve le problème de cohérence de la qualité d’image sur les séquences multi-caméras, un point douloureux de l’industrie.

Deuxièmement, d’après les évaluations en ligne, l’opinion du grand public sur ce modèle est globalement très élevée.

“HappyHorse” : le cheval de qui ?

C’est la question la plus importante que tout le monde dans le monde de l’IA veut clarifier.

Les spéculations sur X sont arrivées très vite. La première chose qui a attiré l’attention, c’est l’ordre des langues sur le site officiel : mandarin et cantonais passent avant l’anglais. Pour un produit destiné à des utilisateurs du monde entier, cet ordre est assez inhabituel — l’équipe derrière vient de Chine ; on peut donc pratiquement confirmer.

Le nom lui-même est aussi un indice. En 2026, c’est l’année du Cheval selon le calendrier lunaire. Le nom « HappyHorse » cache un clin d’œil au Cheval plutôt peu subtil ; plus tôt dans l’année, « Pony Alpha » s’y était essayé avec un jeu de même type. La liste des suspects s’est alors vite allongée : les fondateurs de Tencent et d’Alibaba portent tous deux le nom Ma, ce qui les met naturellement dans la course ; certains parient sur Xiaomi, estimant que Lei Jun a toujours été discret et aime sortir soudainement une carte maîtresse ; d’autres pensent que l’ambiance ressemble davantage à DeepSeek, puisque DS avait auparavant lancé discrètement un modèle visuel, puis l’avait aussi remis en ligne discrètement.

Le commentaire de l’utilisateur X Passluo est particulièrement éloquent : « À qui appartient ce cheval heureux ? Alibaba, Tencent, ou Xiaomi ? »

L’enquête côté technique

Le nom, à lui seul, ne suffit pas ; le milieu technique s’est aussitôt lancé dans une démarche façon Sherlock.

L’utilisateur X Vigo Zhao a pris les données de référence publiques de HappyHorse-1.0 et les a comparées point par point avec les modèles connus, et a trouvé une entité dont la correspondance est très élevée : daVinci-MagiHuman — c’est-à-dire le modèle open source « daVinci MagiHuman (Humain magique) », lancé sur GitHub ce mois-ci en mars.

Qualité visuelle, alignement du texte, cohérence physique, etc., plusieurs séries de données concordent toutes de manière détaillée ; la structure du site officiel est presque identique. Les deux utilisent aussi la même architecture de Transformer mono-flux, et tous deux réalisent une génération conjointe vidéo et audio, avec une liste de langues prise en charge exactement identique. À ce niveau de recoupement, il est difficile d’expliquer cela par une simple coïncidence.

À l’heure actuelle, la conclusion la plus largement reconnue dans le milieu technique est : HappyHorse serait l’une des parties ayant développé conjointement Sand.ai, lié à daVinci-MagiHuman, une version itérée optimisée à partir d’un modèle open source. L’objectif central serait de vérifier la limite de performance du modèle face aux préférences réelles des utilisateurs, en vue de préparer le terrain pour la mise en œuvre commerciale ultérieure.

daVinci-MagiHuman a été officiellement open source le 23 mars 2026 ; c’est le fruit de la coopération de deux jeunes équipes :

L’une vient du laboratoire de recherche en IA générative de l’école d’ingénierie créative de Shanghai, et l’autre est Sand.ai de Pékin (Sand San Technology). Le modèle utilise un Transformer mono-flux à attention pure de 15 milliards de paramètres : les tokens des trois modalités — texte, vidéo et audio — sont tous insérés dans la même séquence pour une modélisation conjointe.

Une autre piste, qui pointe vers Taotian d’Alibaba

En parallèle, une autre version de la spéculation circule dans le milieu :

L’équipe principale derrière HappyHorse proviendrait du « Future Life Lab » du groupe Alibaba Taotian, menée par Zhang Di, ancien vice-président de Kuaishou et responsable de la technologie KeLing.

Des informations publiques indiquent que Zhang Di a rejoint Alibaba à la fin de 2025 et a pris les rênes du groupe « Future Life Lab » de Taotian. Ce laboratoire est une équipe d’algorithmes cœur de l’e-commerce d’Alibaba ; il rassemble des talents techniques de premier plan et des ressources clés de calcul, se concentre sur les domaines de pointe des grands modèles et des multimodalités. Créé il y a à peine un an, il a déjà publié plus de 10 articles de haute qualité lors de conférences internationales de premier plan.

À noter : la période où cette rumeur s’est propagée coïncide précisément avec la performance active d’Alibaba sur le marché boursier de Hong Kong — évidemment, ce n’est qu’une coïncidence intéressante ; à ce stade, il n’existe aucun élément probant liant directement les deux, et il ne faut pas en tirer des conclusions excessives.

Le vrai signal que cette affaire transmet

Quoi qu’il en soit, peu importe à qui reviendra finalement HappyHorse, le signal de l’industrie transmis par cet épisode est déjà suffisamment clair.

Depuis longtemps, une différence visible en termes d’efficacité existe entre les modèles vidéo open source et les produits fermés. Dans les scénarios où il faut livrer des résultats aux clients, la qualité de génération des modèles open source n’a jamais réussi à franchir la barrière allant de « utilisable » à « livrable ». La capacité de fixer les prix des produits fermés comme KeLing, Seedance, etc., repose dans une large mesure sur cet écart.

Cette fois-ci, un produit basé sur un modèle open source, dans un classement de tests en aveugle reposant sur la perception réelle des utilisateurs, se hisse pour la première fois directement au même niveau que les concurrents principaux actuels, pourtant fermés.

Pour les éditeurs de produits fermés qui construisent leur pouvoir de tarification à partir de cet écart, c’est au moins un signal qui mérite d’être pris au sérieux.

Selon la tradition d’Artificial Analysis du « débordement de classement par les tests en aveugle », lorsqu’un modèle anonyme attire suffisamment d’attention, l’officiel procède généralement à une « prise en charge officielle » dans un délai d’une semaine.

Peut-être que, dans les prochains jours, nous saurons enfin la réponse.

Dans cette année du Cheval, ce qui mérite vraiment l’attention n’est peut-être pas la vitesse à laquelle court tel ou tel cheval, mais le fait que la piste elle-même s’élargit.

Avertissement sur les risques et clause de non-responsabilité

        Il y a des risques sur le marché, investissez avec prudence. Cet article ne constitue pas un conseil en investissement personnel, et ne prend pas en compte des objectifs d’investissement particuliers, la situation financière ou des besoins spécifiques de certains utilisateurs. Les utilisateurs doivent envisager si les opinions, points de vue ou conclusions mentionnés dans cet article sont conformes à leur situation particulière. Tout investissement effectué en conséquence se fait à vos propres risques et périls.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler