A Google DeepMind explora um sistema de ponteiro alimentado por IA usando o Gemini para tornar a interação na tela mais intuitiva, consciente do contexto e integrada entre aplicativos e fluxos de trabalho.

A empresa de IA Google DeepMind, parte do Google, apresentou uma pesquisa experimental explorando uma forma redesenhada de interação com o computador que repensa o ponteiro tradicional do mouse, um elemento central das interfaces gráficas usadas há décadas. A iniciativa foca na integração de capacidades de IA, especificamente o modelo Gemini, em interações baseadas em ponteiro para criar uma experiência de computação mais consciente do contexto e intuitiva.

De acordo com a empresa, o ponteiro do mouse permaneceu em grande parte inalterado por mais de cinquenta anos, apesar de grandes mudanças nos paradigmas de computação. Segundo a equipe de pesquisa, o objetivo é evoluir o ponteiro além de uma ferramenta de navegação simples, de modo que ele possa interpretar não apenas o que está apontando, mas também inferir a intenção do usuário. Essa abordagem pretende reduzir a necessidade de os usuários alternarem entre aplicativos ou fornecerem prompts de texto detalhados em interfaces de IA separadas.

Sob o conceito proposto, a funcionalidade de IA é incorporada diretamente ao fluxo de trabalho do usuário, permitindo que as interações ocorram dentro dos aplicativos existentes, em vez de exigir janelas de IA dedicadas. Como exemplo, um usuário poderia apontar para um edifício em um mapa e solicitar direções por entrada de voz ou abreviações naturais, com o sistema usando compreensão contextual para processar a solicitação sem instruções adicionais.

A pesquisa delineia um conjunto de princípios de interação destinados a reduzir o atrito entre a intenção do usuário e a resposta do sistema. Um princípio, descrito como manutenção da continuidade do fluxo de trabalho, enfatiza que as ferramentas de IA devem operar entre aplicativos sem forçar os usuários a ambientes separados. Dentro desse modelo, tarefas como resumir um documento, converter visualizações de dados ou modificar conteúdo poderiam ser concluídas diretamente por ações baseadas em ponteiro.

Outro princípio foca na captura de contexto, onde o sistema interpreta não apenas o objeto selecionado, mas também seu significado ao redor. Em vez de exigir instruções textuais precisas, o sistema de IA identificaria elementos relevantes, como parágrafos, imagens ou trechos de código, com base no local para onde o ponteiro está direcionado, permitindo respostas mais imediatas e direcionadas.

Um conceito adicional destaca o uso de padrões de comunicação humana natural, onde gestos e frases curtas como “isto” ou “aquilo” são combinados com compreensão de contexto. Essa abordagem pretende espelhar estilos de interação do mundo real, reduzindo a dependência de prompts estruturados e possibilitando uma comunicação mais fluida com os sistemas de IA.

Google DeepMind Explora Interfaces Alimentadas por IA que Convertem Elementos Visuais na Tela em Entidades Digitais Ações

A pesquisa também apresenta a ideia de transformar elementos visuais na tela em objetos digitais acionáveis. Nesse framework, pixels são interpretados como entidades estruturadas, como locais, tarefas ou itens de interesse. Por exemplo, uma fotografia poderia ser convertida em uma lista de ações, ou um quadro de vídeo pausado poderia ser usado para extrair informações relevantes do mundo real, como detalhes de restaurantes.

A empresa indicou que esses conceitos experimentais estão sendo incorporados em explorações de produtos iniciais, incluindo experiências baseadas em navegador no Chrome e interfaces de hardware protótipo. Nessas implementações, os usuários poderiam interagir com assistência de IA diretamente por meio de ações de apontar, como comparar itens selecionados em uma página ou visualizar objetos dentro de um ambiente físico. Recursos experimentais adicionais também estão sendo testados em outras plataformas, refletindo uma exploração contínua de design de interface de usuário integrada à IA.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.