Google DeepMind a publié Gemini Robotics-ER 1.6, le robot Spot peut désormais lire automatiquement le tableau de bord

robot
Création du résumé en cours

ME News Actualités, le 14 avril (UTC+8), selon la surveillance de 1M AI News, Google DeepMind a publié Gemini Robotics-ER 1.6, positionné comme un modèle de raisonnement de haut niveau pour robots, avec des améliorations significatives par rapport à ses prédécesseurs ER 1.5 et Gemini 3.0 Flash en matière de raisonnement spatial et de compréhension multi-vues. Le modèle est désormais accessible aux développeurs via l’API Gemini et Google AI Studio.
Les principales améliorations comprennent trois capacités :

  1. Amélioration de la précision de la pointer : utilisable pour la détection précise d’objets, le comptage, le raisonnement sur les relations spatiales (par exemple « pointer tous les objets pouvant entrer dans une tasse bleue ») et la planification de trajectoire, tout en étant capable de refuser correctement de pointer des objets inexistants dans l’image.
  2. Détection multi-vues réussie : le robot peut désormais juger si une tâche est accomplie en combinant plusieurs images de caméras, même en cas d’obstruction ou dans un environnement dynamique, tout en maintenant une précision élevée.
  3. Nouvelle capacité de lecture d’instruments : capable d’interpréter divers instruments industriels tels que manomètres circulaires, indicateurs de niveau vertical et écrans numériques, en utilisant la vision agentique (raisonnement visuel + exécution de code) pour une déduction progressive, en zoomant d’abord sur la zone de détail, puis en utilisant la pointer et le calcul de code pour déterminer le rapport et l’espacement, enfin en combinant la connaissance du monde pour obtenir la lecture.
    La capacité de lecture d’instruments provient d’une collaboration entre DeepMind et Boston Dynamics. Boston Dynamics a annoncé le même jour avoir intégré Gemini et Gemini Robotics-ER 1.6 dans son produit Orbit AIVI-Learning, déployé le 8 avril à tous ses clients AIVI-Learning.
    Après l’intégration, le support des tableaux de bord (gauges) a été ajouté, permettant au robot quadrupède Spot de faire des inspections autonomes dans des installations industrielles et de lire des données d’instruments comme les manomètres.
    Boston Dynamics affirme qu’avec la capacité de raisonnement de Gemini, la performance de base et la précision d’AIVI-Learning dans des tâches telles que l’inspection visuelle, le comptage de palettes et la détection de liquide ont également été améliorées.
    DeepMind affirme que ER 1.6 est « le modèle de robot le plus sûr » qu’ils aient développé. Lors de tâches de raisonnement spatial antagoniste, la conformité aux instructions de sécurité est nettement supérieure à ER 1.5.
    Dans les tests de reconnaissance des risques de sécurité basés sur des rapports de blessures réels, les modèles de la série ER surpassent Gemini 3.0 Flash de 6 % en scénarios textuels et de 10 % en scénarios vidéo.
    (Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler