Розумніший курсор: Візія Google DeepMind з підтримкою Gemini для орієнтованих на наміри обчислень починає набирати форму | Metaverse Post

Коротко

Google DeepMind досліджує систему вказівників на основі штучного інтелекту з використанням Gemini для зроблення взаємодії з екраном більш інтуїтивною, контекстно-орієнтованою та інтегрованою у додатки й робочі процеси.

A Smarter Cursor: Google DeepMind’s Gemini-Powered Vision For Intent-Aware Computing Begins To Take ShapeКомпанія штучного інтелекту Google DeepMind, частина Google, представила експериментальні дослідження, що досліджують перероблену форму комп’ютерної взаємодії, яка переосмислює традиційний вказівник миші, основний елемент графічних інтерфейсів користувача, що використовуються десятиліттями. Ініціатива зосереджена на інтеграції можливостей штучного інтелекту, зокрема моделі Gemini, у взаємодії на основі вказівників для створення більш контекстно-орієнтованого та інтуїтивного досвіду обчислень.

Згідно з компанією, вказівник миші залишався здебільшого незмінним понад п’ятдесят років, незважаючи на значні зміни у парадигмах обчислень. За словами дослідницької команди, мета полягає у тому, щоб еволюціонувати вказівник понад простий інструмент навігації, щоб він міг інтерпретувати не лише те, на що він вказує, а й робити висновки про наміри користувача. Цей підхід має зменшити необхідність перемикання між додатками або надання детальних текстових підказок у окремих інтерфейсах штучного інтелекту.

За запропонованою концепцією, функціональність штучного інтелекту безпосередньо інтегрована у робочий процес користувача, що дозволяє взаємодії відбуватися у межах існуючих додатків, а не у спеціальних вікнах AI. Наприклад, користувач може вказати на будівлю на карті та запитати напрямки голосовим вводом або природною скороченою мовою, а система, використовуючи контекстуальне розуміння, обробить запит без додаткових інструкцій.

Дослідження окреслює набір принципів взаємодії, спрямованих на зменшення тертя між намірами користувача та відповіддю системи. Один із принципів, описаний як підтримка безперервності робочого процесу, наголошує, що інструменти штучного інтелекту мають працювати у різних додатках без примусу користувачів до окремих середовищ. У цій моделі завдання, такі як підсумовування документа, перетворення візуалізацій даних або редагування контенту, можуть виконуватися безпосередньо через дії на основі вказівника.

Ще один принцип зосереджений на захопленні контексту, де система інтерпретує не лише обраний об’єкт, а й його навколишнє значення. Замість вимоги точних текстових інструкцій, система штучного інтелекту визначатиме релевантні елементи, такі як абзаци, зображення або сегменти коду, залежно від того, куди спрямований вказівник, що дозволяє отримувати більш швидкі та цілеспрямовані відповіді.

Ще одна концепція підкреслює використання природних моделей людської комунікації, де жести та короткі фрази, такі як «це» або «те», поєднуються з розумінням контексту. Цей підхід має імітувати стилі взаємодії у реальному світі, зменшуючи залежність від структурованих підказок і дозволяючи більш плавну комунікацію з системами штучного інтелекту.

Google DeepMind досліджує інтерфейси на основі штучного інтелекту, що перетворюють візуальні елементи на елементи цифрової дії

Дослідження також вводить ідею перетворення візуальних елементів на екрані у дійсні цифрові об’єкти. У цій структурі пікселі інтерпретуються як структуровані елементи, такі як місця розташування, завдання або об’єкти інтересу. Наприклад, фотографія може бути перетворена у список дій, або зупинений кадр відео може бути використаний для витягання релевантної інформації з реального світу, наприклад, деталей ресторану.

Компанія зазначила, що ці експериментальні концепції впроваджуються у ранні дослідження продуктів, включаючи браузерні досвіди у Chrome та прототипи апаратних інтерфейсів. У цих реалізаціях користувачі зможуть взаємодіяти з допомогою AI безпосередньо через дії вказівника, наприклад, порівнюючи обрані елементи на веб-сторінці або візуалізуючи об’єкти у фізичному середовищі. Додаткові експериментальні функції також тестуються на інших платформах, що відображає постійні дослідження інтеграції AI у дизайн користувацьких інтерфейсів.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено