Um Cursor Mais Inteligente: A Visão da Google DeepMind com Gemini para Computação Consciente de Intenção Começa a Ganhar Forma | Metaverse Post

Resumidamente

A Google DeepMind explora um sistema de ponteiro alimentado por IA usando o Gemini para tornar a interação com a tela mais intuitiva, contextualizada e integrada entre aplicações e fluxos de trabalho.

A Smarter Cursor: Google DeepMind’s Gemini-Powered Vision For Intent-Aware Computing Begins To Take ShapeA empresa de IA Google DeepMind, parte do Google, apresentou uma pesquisa experimental que explora uma forma redesenhada de interação com o computador que repensa o tradicional ponteiro do rato, um elemento central das interfaces gráficas usadas há décadas. A iniciativa foca na integração de capacidades de IA, especificamente o modelo Gemini, em interações baseadas em ponteiro para criar uma experiência de computação mais contextualizada e intuitiva.

Segundo a empresa, o ponteiro do rato permaneceu em grande parte inalterado por mais de cinquenta anos, apesar de grandes mudanças nos paradigmas de computação. De acordo com a equipa de pesquisa, o objetivo é evoluir o ponteiro além de uma ferramenta de navegação simples, de modo que possa interpretar não apenas o que está a apontar, mas também inferir a intenção do utilizador. Esta abordagem pretende reduzir a necessidade de os utilizadores alternarem entre aplicações ou fornecerem prompts de texto detalhados em interfaces de IA separadas.

Sob o conceito proposto, a funcionalidade de IA é incorporada diretamente no fluxo de trabalho do utilizador, permitindo que as interações ocorram dentro das aplicações existentes, em vez de exigir janelas de IA dedicadas. Como exemplo, um utilizador poderia apontar para um edifício num mapa e solicitar direções por comando de voz ou abreviações naturais, com o sistema usando a compreensão contextual para processar o pedido sem instruções adicionais.

A pesquisa delineia um conjunto de princípios de interação destinados a reduzir o atrito entre a intenção do utilizador e a resposta do sistema. Um princípio, descrito como manutenção da continuidade do fluxo de trabalho, enfatiza que as ferramentas de IA devem operar entre aplicações sem forçar os utilizadores a ambientes separados. Dentro deste modelo, tarefas como resumir um documento, converter visualizações de dados ou modificar conteúdo poderiam ser concluídas diretamente através de ações baseadas no ponteiro.

Outro princípio foca na captura de contexto, onde o sistema interpreta não apenas o objeto selecionado, mas também o seu significado ao redor. Em vez de exigir instruções textuais precisas, o sistema de IA identificaria elementos relevantes, como parágrafos, imagens ou segmentos de código, com base na direção do ponteiro, permitindo respostas mais imediatas e direcionadas.

Um conceito adicional destaca o uso de padrões de comunicação humana natural, onde gestos e frases curtas como “isto” ou “aquilo” são combinados com compreensão contextual. Esta abordagem pretende espelhar estilos de interação do mundo real, reduzindo a dependência de prompts estruturados e permitindo uma comunicação mais fluida com os sistemas de IA.

A Google DeepMind Explora Interfaces Alimentadas por IA que Convertem Elementos Visuais na Tela em Entidades Digitais Ações

A pesquisa também introduz a ideia de transformar elementos visuais na tela em objetos digitais acionáveis. Neste quadro, os pixels são interpretados como entidades estruturadas, como locais, tarefas ou itens de interesse. Por exemplo, uma fotografia poderia ser convertida numa lista de ações, ou um quadro de vídeo pausado poderia ser usado para extrair informações relevantes do mundo real, como detalhes de restaurantes.

A empresa indicou que esses conceitos experimentais estão sendo incorporados em explorações de produtos iniciais, incluindo experiências baseadas no navegador no Chrome e interfaces de hardware protótipo. Nessas implementações, os utilizadores poderiam interagir com assistência de IA diretamente através de ações de apontar, como comparar itens selecionados numa página web ou visualizar objetos num ambiente físico. Recursos experimentais adicionais também estão sendo testados em outras plataformas, refletindo uma exploração contínua do design de interfaces de utilizador integradas com IA.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado