📢 Gate 广场 TradFi 交易分享挑战上线!
晒单瓜分 $30,000 奖池,新人首帖 100% 中奖!
📌 参与方式:
带 #TradFi交易分享挑战 发帖,满足以下任一即可:
🔹 带今日指定 TradFi 币种标签发帖交流。
🔹 完成单笔大于 $10U 的 TradFi CFD 交易并挂载交易卡片。
🏷️ 今日指定标签:USDJPY、AUDUSD、US30、TSLA、JPN225
🎁 宠粉福利:
1️⃣ 卡片分享奖: 抽 50 人,每人送 $100 仓位体验券!
2️⃣ 发帖榜单奖: 冲排行榜,赢 WCTC 限定 T 恤!
3️⃣ 新粉见面礼: 新人首次发帖,100% 领 $10 体验券!
详情:https://www.gate.com/announcements/article/51221
一个更智能的光标:谷歌DeepMind的Gemini驱动的面向意图的计算视觉开始成型 | 元界邮报
简要介绍
谷歌DeepMind探索利用Gemini的AI驱动指针系统,使屏幕交互更加直观、具备上下文感知,并在应用程序和工作流程中实现集成。
据公司介绍,尽管计算范式发生了重大变化,鼠标指针在过去五十多年里基本保持不变。研究团队表示,目标是让指针超越简单的导航工具,不仅能解释它所指向的内容,还能推断用户意图。这种方法旨在减少用户在应用程序之间切换或在不同的AI界面中提供详细文本提示的需求。
在提出的概念下,AI功能直接嵌入用户的工作流程中,允许在现有应用程序内进行交互,而无需专门的AI窗口。例如,用户可以指向地图上的建筑物并通过语音输入或自然简写请求路线,系统利用上下文理解处理请求,无需额外指令。
研究概述了一套旨在减少用户意图与系统响应之间摩擦的交互原则。其中一项原则,称为保持工作流程连续性,强调AI工具应在应用程序之间无缝操作,而不强迫用户进入不同环境。在此模型中,诸如总结文档、转换数据可视化或修改内容等任务,可以通过指针操作直接完成。
另一项原则关注上下文捕获,系统不仅解释所选对象,还理解其周围的意义。系统无需精确的文本指令,而是根据指针指向的位置识别相关元素,如段落、图片或代码片段,从而实现更即时和有针对性的响应。
谷歌DeepMind探索将屏幕视觉转化为可操作数字实体的AI驱动界面
该研究还提出了将屏幕上的视觉元素转化为可操作数字对象的想法。在此框架下,像素被解释为结构化实体,如位置、任务或感兴趣的项目。例如,一张照片可以转化为一系列操作,或暂停的视频帧可以用来提取相关的真实世界信息,如餐厅详情。
公司表示,这些实验性概念已被融入早期产品探索中,包括Chrome浏览器中的体验和原型硬件界面。在这些实现中,用户可以通过指向操作直接与AI助手互动,例如比较网页上的选中项目或在物理环境中可视化对象。其他平台也在测试额外的实验性功能,反映出持续探索AI集成用户界面设计的努力。