Более умный курсор: видение Google DeepMind на базе Gemini для вычислений, учитывающих намерения, начинает приобретать форму | Metaverse Post

Кратко

Google DeepMind исследует систему указателей на базе ИИ с использованием Gemini для более интуитивного, контекстно-зависимого и интегрированного взаимодействия на экране и в рабочих процессах.

A Smarter Cursor: Google DeepMind’s Gemini-Powered Vision For Intent-Aware Computing Begins To Take ShapeКомпания Google DeepMind, часть Google, представила экспериментальные исследования, исследующие переработанную форму взаимодействия с компьютером, которая переосмысливает традиционный указатель мыши — ключевой элемент графических интерфейсов, используемых десятилетиями. Инициатива сосредоточена на интеграции возможностей ИИ, в частности модели Gemini, в взаимодействия с указателями для создания более контекстно-зависимого и интуитивного опыта работы с компьютером.

По словам компании, указатель мыши оставался в основном неизменным более чем за пятьдесят лет, несмотря на значительные сдвиги в парадигмах вычислений. Исследовательская команда отмечает, что цель — развить указатель за пределы простого инструмента навигации, чтобы он мог интерпретировать не только то, на что он указывает, но и делать выводы о намерениях пользователя. Такой подход предназначен для сокращения необходимости переключения между приложениями или предоставления подробных текстовых подсказок в отдельных интерфейсах ИИ.

В рамках предложенной концепции функциональность ИИ встроена непосредственно в рабочий процесс пользователя, позволяя взаимодействиям происходить внутри существующих приложений, а не требуя отдельные окна ИИ. Например, пользователь может указать на здание на карте и запросить маршрут с помощью голосового ввода или естественной краткой формы, при этом система использует контекстуальное понимание для обработки запроса без дополнительных инструкций.

Исследование описывает набор принципов взаимодействия, предназначенных снизить трение между намерениями пользователя и ответом системы. Один из принципов, описанный как поддержание непрерывности рабочего процесса, подчеркивает, что инструменты ИИ должны работать во всех приложениях без принуждения пользователей к отдельным средам. В рамках этой модели задачи, такие как подведение итогов документа, преобразование визуализаций данных или изменение контента, могут выполняться напрямую через действия с указателем.

Другой принцип сосредоточен на захвате контекста, при котором система интерпретирует не только выбранный объект, но и его окружающее значение. Вместо необходимости точных текстовых инструкций, система ИИ будет определять релевантные элементы, такие как параграфы, изображения или сегменты кода, исходя из направления указателя, что позволяет получать более быстрые и целенаправленные ответы.

Другая концепция подчеркивает использование естественных паттернов человеческого общения, где жесты и короткие фразы, такие как «это» или «то», сочетаются с контекстуальным пониманием. Такой подход предназначен для имитации стилей взаимодействия в реальном мире, снижая зависимость от структурированных подсказок и обеспечивая более свободное общение с системами ИИ.

Google DeepMind исследует интерфейсы на базе ИИ, преобразующие визуальные элементы на экране в управляемые цифровые объекты

Исследование также вводит идею преобразования визуальных элементов на экране в управляемые цифровые объекты. В этой концепции пиксели интерпретируются как структурированные сущности, такие как местоположения, задачи или объекты интереса. Например, фотография может быть преобразована в список действий, или застрявший кадр видео — использоваться для извлечения релевантной информации из реального мира, такой как детали ресторана.

Компания указала, что эти экспериментальные концепции внедряются в ранние разработки продуктов, включая браузерные интерфейсы в Chrome и прототипы аппаратных интерфейсов. В этих реализациях пользователи смогут взаимодействовать с помощью ИИ напрямую через указательные действия, например, сравнивая выбранные элементы на веб-странице или визуализируя объекты в физической среде. Дополнительные экспериментальные функции также тестируются на других платформах, что отражает продолжающиеся исследования по интеграции ИИ в дизайн пользовательских интерфейсов.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено