Con trỏ Thông minh hơn: Tầm Nhìn của Google DeepMind với Gemini cho Máy Tính Nhận Thức Mục Đích bắt đầu hình thành | Metaverse Post

Tóm tắt ngắn gọn

Google DeepMind khám phá hệ thống con trỏ dựa trên AI sử dụng Gemini để làm cho tương tác màn hình trở nên trực quan hơn, nhạy bén với ngữ cảnh và tích hợp xuyên suốt các ứng dụng và quy trình làm việc.

A Smarter Cursor: Google DeepMind’s Gemini-Powered Vision For Intent-Aware Computing Begins To Take ShapeCông ty AI Google DeepMind, thuộc Google, đã giới thiệu nghiên cứu thử nghiệm khám phá một dạng tương tác máy tính được thiết kế lại, suy nghĩ lại về con trỏ chuột truyền thống, một yếu tố cốt lõi của giao diện người dùng đồ họa đã được sử dụng trong nhiều thập kỷ. Sáng kiến này tập trung vào việc tích hợp khả năng AI, đặc biệt là mô hình Gemini, vào các tương tác dựa trên con trỏ nhằm tạo ra trải nghiệm máy tính nhạy bén với ngữ cảnh và trực quan hơn.

Theo công ty, con trỏ chuột vẫn gần như không thay đổi trong hơn năm mươi năm mặc dù có những chuyển đổi lớn trong các mô hình tính toán. Theo nhóm nghiên cứu, mục tiêu là phát triển con trỏ vượt ra ngoài một công cụ điều hướng đơn giản để có thể hiểu không chỉ những gì nó đang chỉ vào, mà còn suy luận ý định của người dùng. Cách tiếp cận này nhằm giảm thiểu việc người dùng phải chuyển đổi giữa các ứng dụng hoặc cung cấp các lệnh văn bản chi tiết trong các giao diện AI riêng biệt.

Theo khái niệm đề xuất, chức năng AI được tích hợp trực tiếp vào quy trình làm việc của người dùng, cho phép các tương tác diễn ra trong các ứng dụng hiện có thay vì yêu cầu các cửa sổ AI riêng biệt. Ví dụ, người dùng có thể chỉ vào một tòa nhà trên bản đồ và yêu cầu hướng đi qua lệnh thoại hoặc viết tắt tự nhiên, hệ thống sẽ sử dụng hiểu biết ngữ cảnh để xử lý yêu cầu mà không cần hướng dẫn bổ sung.

Nghiên cứu phác thảo một bộ nguyên tắc tương tác nhằm giảm ma sát giữa ý định của người dùng và phản hồi của hệ thống. Một nguyên tắc, được mô tả là duy trì liên tục quy trình làm việc, nhấn mạnh rằng các công cụ AI nên hoạt động xuyên suốt các ứng dụng mà không bắt buộc người dùng phải chuyển sang môi trường khác. Trong mô hình này, các nhiệm vụ như tóm tắt tài liệu, chuyển đổi dữ liệu trực quan hoặc chỉnh sửa nội dung có thể hoàn thành trực tiếp qua các hành động dựa trên con trỏ.

Một nguyên tắc khác tập trung vào việc nắm bắt ngữ cảnh, nơi hệ thống không chỉ hiểu đối tượng được chọn mà còn cả ý nghĩa xung quanh nó. Thay vì yêu cầu hướng dẫn chính xác bằng văn bản, hệ thống AI sẽ xác định các yếu tố liên quan như đoạn văn, hình ảnh hoặc đoạn mã dựa trên vị trí con trỏ hướng tới, cho phép phản hồi nhanh hơn và chính xác hơn.

Một khái niệm khác nhấn mạnh việc sử dụng các mẫu giao tiếp tự nhiên của con người, trong đó các cử chỉ và cụm từ ngắn như “đây” hoặc “đó” được kết hợp với hiểu biết ngữ cảnh. Cách tiếp cận này nhằm phản ánh các kiểu tương tác trong thế giới thực, giảm sự phụ thuộc vào các lệnh có cấu trúc và cho phép giao tiếp linh hoạt hơn với hệ thống AI.

Google DeepMind Khám Phá Giao Diện Dựa Trên AI Chuyển Đổi Hình Ảnh Trên Màn Hình Thành Các Thực Thể Kỹ Thuật Số Có Thể Hành Động

Nghiên cứu cũng giới thiệu ý tưởng biến các yếu tố hình ảnh trên màn hình thành các đối tượng kỹ thuật số có thể hành động. Trong khuôn khổ này, các pixel được hiểu là các thực thể có cấu trúc như vị trí, nhiệm vụ hoặc mục tiêu quan tâm. Ví dụ, một bức ảnh có thể được chuyển đổi thành danh sách các hành động, hoặc một khung hình video tạm dừng có thể được sử dụng để trích xuất thông tin thực tế liên quan như chi tiết nhà hàng.

Công ty cho biết các khái niệm thử nghiệm này đang được tích hợp vào các khám phá sản phẩm ban đầu, bao gồm trải nghiệm dựa trên trình duyệt trong Chrome và các giao diện phần cứng mẫu. Trong các triển khai này, người dùng sẽ có thể tương tác với trợ lý AI trực tiếp qua các hành động chỉ vào, chẳng hạn như so sánh các mục đã chọn trên một trang web hoặc hình dung các đối tượng trong môi trường vật lý. Các tính năng thử nghiệm bổ sung cũng đang được kiểm tra trên các nền tảng khác, phản ánh quá trình khám phá liên tục về thiết kế giao diện người dùng tích hợp AI.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim