Microsoft mở nguồn Phi-Ground: Độ chính xác dự đoán 4 tỷ tham số vượt qua Operator và Claude

robot
Đang tạo bản tóm tắt

Tin tức từ CoinWorld, Microsoft đã mở mã nguồn gia đình mô hình Phi-Ground, chuyên giải quyết vấn đề “điểm nào trên màn hình” khi AI điều khiển máy tính. Phiên bản mở mã nguồn với 4 tỷ tham số vượt qua độ chính xác nhấp chuột của OpenAI’s Operator và Claude trong bài kiểm tra tiêu chuẩn Showdown, đồng thời đạt vị trí số một trong năm bài đánh giá như Screenspot-Pro với tất cả các mô hình dưới 10 tỷ tham số. Nhóm đã xác nhận quy mô lớn bằng hơn 40 triệu dữ liệu, phát hiện ra rằng các kỹ thuật huấn luyện phổ biến trong các bài báo học thuật trước đây đều mất hiệu quả khi dữ liệu tăng lên. Phương pháp hiệu quả là trực tiếp xuất tọa độ như các số thông thường, ví dụ “523, 417”. Nhóm cũng phát hiện rằng học tăng cường có ích cho các nhiệm vụ hoàn toàn dựa trên thị giác, bằng cách cho mô hình dự đoán nhiều lần nhấp chuột trên cùng một hình ảnh, sau đó so sánh kết quả đúng và sai để huấn luyện. Để giải quyết vấn đề nút bấm quá nhỏ trên màn hình 4K, nhóm đã thu nhỏ hình chụp màn hình theo tỷ lệ rồi dán vào một bức tranh nền trắng lớn, mô phỏng cảnh thực các yếu tố nhỏ trên màn hình độ phân giải cao. Chiến thuật này đặc biệt hiệu quả trên các phần mềm phức tạp như Photoshop.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim