Google DeepMind lançou o Gemini Robotics-ER 1.6, o robô Spot já consegue ler painéis de instrumentos automaticamente

robot
Geração de resumo em curso

Notícias ME, 14 de abril (UTC+8), de acordo com a monitorização da 1M AI News, o DeepMind do Google lançou o Gemini Robotics-ER 1.6, posicionado como um modelo de raciocínio de alto nível para robôs, apresentando melhorias significativas em raciocínio espacial e compreensão de múltiplas perspectivas em comparação com as versões anteriores ER 1.5 e Gemini 3.0 Flash. O modelo já está disponível para desenvolvedores através da Gemini API e do Google AI Studio. As principais atualizações incluem três capacidades: 1. Melhoria na precisão de apontamento: pode ser usado para deteção precisa de objetos, contagem, raciocínio de relações espaciais (como “apontar todos os objetos que cabem na taça azul”) e planeamento de trajetórias de movimento, além de rejeitar corretamente objetos que não estão presentes na imagem 2. Detecção bem-sucedida de múltiplas perspectivas: o robô agora consegue avaliar se a tarefa foi concluída combinando imagens de várias câmeras, mantendo precisão mesmo em ambientes com obstáculos ou dinâmicos 3. Nova capacidade de leitura de instrumentos: pode interpretar diversos instrumentos industriais, como manómetros circulares, indicadores de nível vertical e displays digitais, usando agentic vision (raciocínio visual + execução de código) para raciocínio passo a passo, ampliando detalhes, usando apontamento e cálculos de código para determinar proporções e intervalos, e finalmente combinando conhecimento do mundo para obter a leitura. A capacidade de leitura de instrumentos deriva da colaboração entre DeepMind e Boston Dynamics. Na mesma data, a Boston Dynamics anunciou que integrou o Gemini e o Gemini Robotics-ER 1.6 em seu produto Orbit AIVI-Learning, lançado em 8 de abril para todos os clientes AIVI-Learning. Após a integração, foi adicionado suporte a painéis de instrumentos (gauges), permitindo que o robô quadrúpede Spot realize inspeções autônomas em instalações industriais e leia dados de instrumentos como manómetros. A Boston Dynamics afirmou que, com a capacidade de raciocínio do Gemini, o desempenho de base e a precisão em tarefas como inspeções visuais, contagem de paletes e detecção de líquidos aumentaram. A DeepMind afirma que o ER 1.6 é seu “modelo de robô mais seguro”. Em tarefas de raciocínio espacial adversarial, a conformidade com instruções de segurança superou significativamente o ER 1.5. Nos testes de identificação de riscos de segurança baseados em relatórios reais de ferimentos, os modelos da série ER tiveram um aumento de 6% em cenários de texto e 10% em cenários de vídeo em relação ao Gemini 3.0 Flash. (Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar