GoogleDeepMind a publié l'encodeur de texte et d'image de base pour la perception spatiale TIPSv2

ME News Actualités, le 15 avril (UTC+8), GoogleDeepMind a récemment présenté TIPSv2 lors de la CVPR 2026, un encodeur de texte et d’image de base doté de capacités de perception spatiale.
Ce modèle a obtenu de solides résultats en termes de performance globale, et a réalisé une amélioration significative des performances dans la tâche d’alignement entre blocs d’images et texte.
Les responsables de la publication estiment qu’une véritable IA multimodale doit comprendre les relations spatiales du monde.
(Source : InFoQ)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler