OpenRouter lance l'API de génération vidéo, une interface qui appelle Sora 2, Veo 3.1, Seedance et d'autres modèles principaux

robot
Création du résumé en cours

ME News Actualités, le 16 avril (UTC+8), selon le monitoring de Dongcha Beating, la plateforme d’agrégation de modèles d’IA OpenRouter a officiellement lancé une API de génération vidéo, supportant initialement la vidéo basée sur du texte et la vidéo basée sur des images, intégrée à Seedance 2.0/1.5, Veo 3.1, Wan 2.7/2.6 et Sora 2 Pro, avec des extensions prévues.
L’API de génération vidéo est beaucoup plus fragmentée que celle des modèles de texte : chaque fournisseur a des formats de requête différents, des noms de paramètres différents, des unités de facturation différentes, et même différentes capacités (vidéo basée sur du texte, vidéo basée sur des images, génération de personnages de référence) correspondant souvent à des points de terminaison distincts.
La solution d’OpenRouter consiste à construire une couche supérieure avec un schéma unifié, qui route automatiquement vers le bon point de terminaison en fonction des paramètres de la requête.
Si une image est jointe, cela utilise la génération vidéo basée sur l’image ; si un personnage de référence est spécifié, cela utilise le point de terminaison de cohérence de personnage ; les développeurs n’ont pas besoin de se soucier des différences sous-jacentes.
La normalisation des paramètres couvre également les détails susceptibles de poser problème.
Par exemple, Veo 3.1 supporte des segments de 4, 6 ou 8 secondes, Wan 2.6 supporte 5 ou 10 secondes, et une durée incorrecte entraîne une erreur immédiate.
OpenRouter fournit un point de terminaison pour la requête des capacités du modèle /api/v1/videos/models\ , qui retourne la résolution, la durée, le ratio largeur/hauteur, le prix et les paramètres spécifiques à chaque modèle, permettant aux développeurs ou aux agents programmatiques de vérifier avant de tester pour éviter les essais infructueux.
Étant donné que la génération vidéo prend plusieurs minutes, l’API fonctionne de manière asynchrone : après soumission du prompt, elle retourne un ID de tâche, et une fois terminée, la vidéo peut être récupérée.
OpenRouter a également open-sourcé une application de démonstration de flux de travail multimodal, montrant le processus de génération de prompts détaillés par LLM, la création de personnages par modèles d’images, et la génération de scènes par modèles vidéo.
C’est la valeur la plus immédiate de l’intégration de la génération vidéo via une route unifiée : les développeurs peuvent combiner des modèles de texte, d’image et de vidéo sous une seule API, sans avoir à intégrer séparément chaque SDK.
(Source : BlockBeats)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler