一个更智能的光标：谷歌DeepMind的Gemini驱动的面向意图的计算视觉开始成型 | 元界邮报

Mpost Media Group · 2026-05-13T09:44:40+00:00

简要介绍Google DeepMind 使用 Gemini 探索基于 AI 的指针系统，让屏幕交互更加直观、具有上下文感知，并在应用程序与工作流程中实现更深度的集成。AI 公司 Google DeepMind（隶属 Google）已推出一项实验性研究，探索一种重新设计的计算机交互形式

2026-05-13 09:44:40

简要介绍

谷歌DeepMind探索利用Gemini的AI驱动指针系统，使屏幕交互更加直观、具备上下文感知，并在应用程序和工作流程中实现集成。

作为谷歌旗下的AI公司，谷歌DeepMind推出了探索重新设计的计算机交互形式的实验性研究，该设计重新思考了传统的鼠标指针——多年来图形用户界面的核心元素。该项目旨在将AI能力，特别是Gemini模型，集成到基于指针的交互中，以创造更具上下文感知和直观的计算体验。

据公司介绍，尽管计算范式发生了重大变化，鼠标指针在过去五十多年里基本保持不变。研究团队表示，目标是让指针超越简单的导航工具，不仅能解释它所指向的内容，还能推断用户意图。这种方法旨在减少用户在应用程序之间切换或在不同的AI界面中提供详细文本提示的需求。

在提出的概念下，AI功能直接嵌入用户的工作流程中，允许在现有应用程序内进行交互，而无需专门的AI窗口。例如，用户可以指向地图上的建筑物并通过语音输入或自然简写请求路线，系统利用上下文理解处理请求，无需额外指令。

研究概述了一套旨在减少用户意图与系统响应之间摩擦的交互原则。其中一项原则，称为保持工作流程连续性，强调AI工具应在应用程序之间无缝操作，而不强迫用户进入不同环境。在此模型中，诸如总结文档、转换数据可视化或修改内容等任务，可以通过指针操作直接完成。

另一项原则关注上下文捕获，系统不仅解释所选对象，还理解其周围的意义。系统无需精确的文本指令，而是根据指针指向的位置识别相关元素，如段落、图片或代码片段，从而实现更即时和有针对性的响应。

另一个概念强调使用自然的人类交流模式，将手势和简短短语（如“这个”或“那个”）与上下文理解相结合。这种方法旨在模仿现实世界的交互风格，减少对结构化提示的依赖，实现与AI系统更流畅的沟通。

谷歌DeepMind探索将屏幕视觉转化为可操作数字实体的AI驱动界面

该研究还提出了将屏幕上的视觉元素转化为可操作数字对象的想法。在此框架下，像素被解释为结构化实体，如位置、任务或感兴趣的项目。例如，一张照片可以转化为一系列操作，或暂停的视频帧可以用来提取相关的真实世界信息，如餐厅详情。

公司表示，这些实验性概念已被融入早期产品探索中，包括Chrome浏览器中的体验和原型硬件界面。在这些实现中，用户可以通过指向操作直接与AI助手互动，例如比较网页上的选中项目或在物理环境中可视化对象。其他平台也在测试额外的实验性功能，反映出持续探索AI集成用户界面设计的努力。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

请输入评论内容

暂无评论