Sand.ai obtient plus d'un milliard de dollars de financement : maintient sa stratégie de vidéo autoregressive, prévoit de lancer en juillet un grand modèle MoE open source

Selon le suivi Beating, la société de génération vidéo à grande échelle Sand.ai (fondée en janvier 2024) a annoncé avoir réalisé deux levées de fonds totalisant plus d'un milliard de dollars. Les investisseurs incluent Look Capital, Lollapalooza Capital (fonds familial de Wang Huiwen), Jiukun Venture Capital, Matrix Partners China, MSA Capital, Innovation Works, Source Code Capital, IDG, Baidu Venture Capital, ainsi que plusieurs autres institutions de premier plan. Cette levée de fonds a été conseillée financièrement par Xinghan Capital.

Le fondateur de Sand.ai, Cao Yue, a déclaré lors d'une interview que l'équipe persiste à considérer la voie de génération vidéo autoregressive (Autoregressive), considérée comme non consensuelle, plutôt que la voie dominante de la diffusion (Diffusion). Son modèle Magi-1, publié précédemment, maintient la première place dans le classement Physics-IQ de Google DeepMind, qui teste la véracité physique.

Pour surmonter le triangle « coût, vitesse, qualité » de la génération vidéo, Sand.ai s'est tournée l'année dernière vers l'exploration de l'architecture MoE (Experts Mixtes), et prévoit de lancer en juillet 2026 (T3) une nouvelle génération de modèles de génération vidéo utilisant cette architecture, combinant une inférence efficace avec la plus grande échelle de paramètres dans le domaine open source, tout en rendant ce modèle open source.

En termes de commercialisation, Sand.ai adopte une stratégie à double moteur : modèles et produits. Son produit musical Agent, VidMuse, lancé en janvier de cette année, a atteint un ARR de 10 millions de dollars en seulement deux mois. De plus, sa bibliothèque d'opérateurs MagiAttention open source est utilisée par presque toutes les équipes de modèles multimodaux en Chine et a été recommandée par NVIDIA.

Concernant le concept de « modèle mondial » très discuté dans l'industrie, Cao Yue pense qu'il en est encore au stade pré-GPT (avant GPT-1), avec des données et des trajectoires encore non convergentes. Il souligne que la vidéo est la modalité de données la plus importante pour évoluer vers un modèle mondial, et que le modèle doit apprendre de manière autonome les lois physiques en prédisant les données d'observation vidéo originales (Pixels/Frames), plutôt que d'introduire des préjugés humains pour modéliser explicitement les variables d'état.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé