Microsoft mở nguồn Phi-Ground: Độ chính xác dự đoán 4 tỷ tham số đã thắng Operator và Claude

robot
Đang tạo bản tóm tắt

Theo giám sát Beating, Microsoft đã mở mã nguồn gia đình mô hình Phi-Ground, chuyên giải quyết vấn đề “điểm nào trên màn hình này” khi AI điều khiển máy tính. Cung cấp một ảnh chụp màn hình và một lệnh, mô hình sẽ xuất ra tọa độ nhấp chính xác. Phiên bản mở mã nguồn với 4 tỷ tham số kết hợp với mô hình lớn để lập trình lệnh, sau đó, trong bài kiểm tra chuẩn Showdown, tỷ lệ chính xác khi nhấp vượt quá OpenAI Operator và Claude Computer Use, và trong năm bài đánh giá như ScreenSpot-Pro, đều đạt vị trí số một dưới 100 tỷ tham số.

Nhóm đã xác nhận quy mô lớn với hơn 40 triệu dữ liệu, phát hiện ra rằng ba kỹ thuật huấn luyện phổ biến trong các bài báo học thuật trước đây đều mất hiệu lực khi dữ liệu tăng lên. Cách thực sự hiệu quả rất đơn giản: xuất tọa độ trực tiếp như số thông thường, ví dụ như “523, 417”. Trước đây, nhiều bài báo đã phát minh một bộ từ vựng vị trí riêng cho tọa độ, hy vọng mô hình có thể nói tọa độ như nói từ, nhưng khi huấn luyện quy mô lớn, các từ mới này không học tốt, thậm chí gây sụp đổ mô hình. Một điểm then chốt khác là đặt lệnh văn bản trước hình ảnh khi nhập. Mô hình lớn đọc thông tin theo chiều đơn, trước tiên đọc “nhấp vào biểu tượng cài đặt màu xanh” rồi xem hình, khi xử lý pixel đã biết cần tìm gì; ngược lại, xem hình trước, mô hình chỉ có thể quét mù một lượt, hiệu quả kém hơn nhiều.

Nhóm còn phát hiện học tăng cường (reinforcement learning) cũng có ích cho các nhiệm vụ thuần thị giác. Cách làm là để mô hình dự đoán nhiều lần vị trí nhấp trên cùng một hình, so sánh kết quả đúng và sai để huấn luyện (phương pháp này gọi là DPO, thuộc loại học tăng cường). Ngay cả khi mô hình đã được tinh chỉnh đầy đủ, bước này vẫn rõ ràng nâng cao độ chính xác. Trước đây, học tăng cường thường chỉ dùng cho các nhiệm vụ ngôn ngữ cần suy luận, nhưng nay còn hiệu quả trong các nhiệm vụ cảm nhận “nhìn hình chỉ định chỗ nhấp”, là một phát hiện bất ngờ. Đối với vấn đề nút bấm quá nhỏ trên màn hình 4K (một nút chỉ chiếm khoảng 0,07% diện tích màn hình), nhóm đã thu nhỏ ảnh chụp màn hình theo tỷ lệ rồi dán vào một bức tranh nền trắng lớn, mô phỏng cảnh các phần tử cực nhỏ trên màn hình độ phân giải cao. Chiến thuật này đặc biệt hiệu quả trên các phần mềm chuyên nghiệp phức tạp như Photoshop.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim