Video Arenaランキングは、Eloのブラインドテストシステムに基づいている。そこでは、ユーザーはモデルの身元を知らない状態で、生成された2つの選択肢のうち好みの動画を投票する。HappyHorseはリストに掲載されて間もなく、サンプルサイズは約3,500で、Seedance 2.0の半分未満のため、信頼区間が広い(±12-13ポイント)。しかし、音声なしカテゴリにおけるリードは(text-to-videoで約76ポイント、image-to-videoで約48ポイント)誤差の範囲を大きく上回っている。
HappyHorse、AI動画ブラインドテストで匿名トップに、AlibabaのTaotianとSand.aiが調査対象に
1M AIニュースのモニタリングによると、匿名のモデル名「HappyHorse-1.0」が、先週、AI動画評価プラットフォームArtificial Analysis上のVideo Arenaランキングで首位に到達し、音声を除くtext-to-videoカテゴリとimage-to-videoカテゴリの両方で1位を獲得した。これにより、ByteDanceのSeedance 2.0は2位に後退した。音声カテゴリでは、Seedance 2.0が依然としてわずかな差でリードしている。記者会見も技術ブログもなく、企業としての帰属(出所)も示されておらず、まだ誰も公にそれを主張していない。
Video Arenaランキングは、Eloのブラインドテストシステムに基づいている。そこでは、ユーザーはモデルの身元を知らない状態で、生成された2つの選択肢のうち好みの動画を投票する。HappyHorseはリストに掲載されて間もなく、サンプルサイズは約3,500で、Seedance 2.0の半分未満のため、信頼区間が広い(±12-13ポイント)。しかし、音声なしカテゴリにおけるリードは(text-to-videoで約76ポイント、image-to-videoで約48ポイント)誤差の範囲を大きく上回っている。
公式サイトにおける言語の並び順(中国語と広東語が英語の前に記載されている)と、「HappyHorse」が2026年に干支の「馬の年」を参照していることから、業界のインサイダーは、このモデルが中国のチームに由来すると推測している。主流の説は2つある。
いくつかの業界メディアは、このモデルがAlibabaのTaotian GroupのFuture Life Labに由来し、リードしているのがZhang Diだと主張している。Zhang Diは以前、Kuaishouのテクノロジー担当副社長を務めており、2024年からKeling AIの開発を率いる予定で、2025年4月にはKeling 2.0 Master Editionのリリースが計画されている。同年11月にはAlibabaに戻る。
ユーザーのVigo Zhaoは詳細な比較を行い、HappyHorseが、今月の3月にAI動画スタートアップSand.aiによってオープンソース化されたdaVinci-MagiHumanの複数のベンチマーク指標と完全に一致していることを見つけた。さらに、公式サイトの構造も非常に似ている。Sand.aiは、Swin Transformerの第一著者であるCao Yueによって設立され、業界では「AI動画のDeepSeek」と呼ばれている。
HappyHorseの公式サイトによれば、このモデルは15 billionのパラメータを持ち、自己注意トランスフォーマーが40層で、Transfusionアーキテクチャ(同一モデル内でテキストの自己回帰予測と動画の音声拡散生成を統一する)を採用しており、8-step推論を行う。1080pの動画を同期された音声付きで出力し、口パク(lip-sync)を7言語でサポートしている:中国語、英語、日本語、韓国語、ドイツ語、フランス語、広東語。完全にオープンソースで、商用利用も可能だ。