一个更智能的光标:谷歌DeepMind的Gemini驱动的面向意图的计算视觉开始成型 | 元界邮报

简要介绍

谷歌DeepMind探索利用Gemini的AI驱动指针系统,使屏幕交互更加直观、具备上下文感知,并在应用程序和工作流程中实现集成。

A Smarter Cursor: Google DeepMind’s Gemini-Powered Vision For Intent-Aware Computing Begins To Take Shape作为谷歌旗下的AI公司,谷歌DeepMind推出了探索重新设计的计算机交互形式的实验性研究,该设计重新思考了传统的鼠标指针——多年来图形用户界面的核心元素。该项目旨在将AI能力,特别是Gemini模型,集成到基于指针的交互中,以创造更具上下文感知和直观的计算体验。

据公司介绍,尽管计算范式发生了重大变化,鼠标指针在过去五十多年里基本保持不变。研究团队表示,目标是让指针超越简单的导航工具,不仅能解释它所指向的内容,还能推断用户意图。这种方法旨在减少用户在应用程序之间切换或在不同的AI界面中提供详细文本提示的需求。

在提出的概念下,AI功能直接嵌入用户的工作流程中,允许在现有应用程序内进行交互,而无需专门的AI窗口。例如,用户可以指向地图上的建筑物并通过语音输入或自然简写请求路线,系统利用上下文理解处理请求,无需额外指令。

研究概述了一套旨在减少用户意图与系统响应之间摩擦的交互原则。其中一项原则,称为保持工作流程连续性,强调AI工具应在应用程序之间无缝操作,而不强迫用户进入不同环境。在此模型中,诸如总结文档、转换数据可视化或修改内容等任务,可以通过指针操作直接完成。

另一项原则关注上下文捕获,系统不仅解释所选对象,还理解其周围的意义。系统无需精确的文本指令,而是根据指针指向的位置识别相关元素,如段落、图片或代码片段,从而实现更即时和有针对性的响应。

另一个概念强调使用自然的人类交流模式,将手势和简短短语(如“这个”或“那个”)与上下文理解相结合。这种方法旨在模仿现实世界的交互风格,减少对结构化提示的依赖,实现与AI系统更流畅的沟通。

谷歌DeepMind探索将屏幕视觉转化为可操作数字实体的AI驱动界面

该研究还提出了将屏幕上的视觉元素转化为可操作数字对象的想法。在此框架下,像素被解释为结构化实体,如位置、任务或感兴趣的项目。例如,一张照片可以转化为一系列操作,或暂停的视频帧可以用来提取相关的真实世界信息,如餐厅详情。

公司表示,这些实验性概念已被融入早期产品探索中,包括Chrome浏览器中的体验和原型硬件界面。在这些实现中,用户可以通过指向操作直接与AI助手互动,例如比较网页上的选中项目或在物理环境中可视化对象。其他平台也在测试额外的实验性功能,反映出持续探索AI集成用户界面设计的努力。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论