Theo báo cáo của động thái Beating, mô hình mã nguồn mở Phi-Ground có thể xuất ra tọa độ nhấp chính xác sau khi nhập lệnh bằng ảnh chụp màn hình. Phiên bản 4 tỷ tham số được lập trình theo lệnh, vượt qua OpenAI Operator, Claude Computer Use trong các bài kiểm tra tiêu chuẩn như Showdown, và dẫn đầu các mô hình cùng loại trong nhiều đánh giá. Nhóm đã xác nhận bằng 40 triệu dữ liệu, phát hiện rằng viết tọa độ trực tiếp thành số thông thường là hiệu quả nhất, và đặt lệnh văn bản trước hình ảnh để thực hiện đọc ảnh một chiều. Ngoài ra, còn sử dụng học tăng cường DPO để nâng cao hiệu suất nhiệm vụ thuần thị giác, và trong các cảnh màn hình độ phân giải cao, dùng phương pháp huấn luyện dán ảnh chụp màn hình thu nhỏ lên bức tranh trắng, hiệu quả rõ rệt trong các ứng dụng như Photoshop.

BlockBeatNews

2026-05-10 04:21:00

Đang tạo bản tóm tắt

Theo giám sát Beating, Microsoft đã mở mã nguồn gia đình mô hình Phi-Ground, chuyên giải quyết vấn đề “điểm nào trên màn hình này” khi AI điều khiển máy tính. Cung cấp một ảnh chụp màn hình và một lệnh, mô hình sẽ xuất ra tọa độ nhấp chính xác. Phiên bản mở mã nguồn với 4 tỷ tham số kết hợp với mô hình lớn để lập trình lệnh, sau đó, trong bài kiểm tra chuẩn Showdown, tỷ lệ chính xác khi nhấp vượt quá OpenAI Operator và Claude Computer Use, và trong năm bài đánh giá như ScreenSpot-Pro, đều đạt vị trí số một dưới 100 tỷ tham số.

Nhóm đã xác nhận quy mô lớn với hơn 40 triệu dữ liệu, phát hiện ra rằng ba kỹ thuật huấn luyện phổ biến trong các bài báo học thuật trước đây đều mất hiệu lực khi dữ liệu tăng lên. Cách thực sự hiệu quả rất đơn giản: xuất tọa độ trực tiếp như số thông thường, ví dụ như “523, 417”. Trước đây, nhiều bài báo đã phát minh một bộ từ vựng vị trí riêng cho tọa độ, hy vọng mô hình có thể nói tọa độ như nói từ, nhưng khi huấn luyện quy mô lớn, các từ mới này không học tốt, thậm chí gây sụp đổ mô hình. Một điểm then chốt khác là đặt lệnh văn bản trước hình ảnh khi nhập. Mô hình lớn đọc thông tin theo chiều đơn, trước tiên đọc “nhấp vào biểu tượng cài đặt màu xanh” rồi xem hình, khi xử lý pixel đã biết cần tìm gì; ngược lại, xem hình trước, mô hình chỉ có thể quét mù một lượt, hiệu quả kém hơn nhiều.

Nhóm còn phát hiện học tăng cường (reinforcement learning) cũng có ích cho các nhiệm vụ thuần thị giác. Cách làm là để mô hình dự đoán nhiều lần vị trí nhấp trên cùng một hình, so sánh kết quả đúng và sai để huấn luyện (phương pháp này gọi là DPO, thuộc loại học tăng cường). Ngay cả khi mô hình đã được tinh chỉnh đầy đủ, bước này vẫn rõ ràng nâng cao độ chính xác. Trước đây, học tăng cường thường chỉ dùng cho các nhiệm vụ ngôn ngữ cần suy luận, nhưng nay còn hiệu quả trong các nhiệm vụ cảm nhận “nhìn hình chỉ định chỗ nhấp”, là một phát hiện bất ngờ. Đối với vấn đề nút bấm quá nhỏ trên màn hình 4K (một nút chỉ chiếm khoảng 0,07% diện tích màn hình), nhóm đã thu nhỏ ảnh chụp màn hình theo tỷ lệ rồi dán vào một bức tranh nền trắng lớn, mô phỏng cảnh các phần tử cực nhỏ trên màn hình độ phân giải cao. Chiến thuật này đặc biệt hiệu quả trên các phần mềm chuyên nghiệp phức tạp như Photoshop.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateSquareMayTradingShare
1.05M Phổ biến
#
BTCBackAbove80K
59.45M Phổ biến
#
IsraelStrikesIranBTCPlunges
45.63K Phổ biến
#
JapanTokenizesGovernmentBonds
1.9M Phổ biến
#
#DailyPolymarketHotspot
871.95K Phổ biến

Ghim

sơ đồ trang web

Microsoft mở nguồn Phi-Ground: Độ chính xác dự đoán 4 tỷ tham số đã thắng Operator và Claude

Chủ đề thịnh hành

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Ghim