Theo Beating, Microsoft gần đây đã mở mã nguồn gia đình mô hình Phi-Ground, nhằm giải quyết vấn đề "AI nên nhấp vào đâu trên màn hình máy tính". Phiên bản 4 tỷ tham số này, kết hợp với các mô hình ngôn ngữ lớn hơn dùng để lập trình hướng dẫn, đã vượt qua độ chính xác nhấp chuột của OpenAI Operator và Claude Computer Use trong bài kiểm tra tiêu chuẩn Showdown, và đứng đầu trong năm đánh giá bao gồm ScreenSpot-Pro, tất cả các mô hình có dưới 10 tỷ tham số. Nhóm đã huấn luyện trên hơn 40 triệu mẫu dữ liệu và phát hiện ra rằng ba kỹ thuật huấn luyện phổ biến trong các bài báo học thuật trở nên vô hiệu khi quy mô lớn hơn. Ý tưởng cốt lõi rất đơn giản: xuất tọa độ số thông thường, ví dụ như "523, 417." Trước đó, các nghiên cứu đã phát minh ra các từ vựng vị trí đặc biệt cho tọa độ, nhưng những phương pháp này không thể mở rộng quy mô. Nhóm cũng nhận thấy rằng đặt lệnh văn bản trước hình ảnh có thể nâng cao hiệu suất, vì mô hình có thể nhận diện mục tiêu khi xử lý pixel. Ngoài ra, các phương pháp học tăng cường như DPO vẫn có thể cải thiện độ chính xác sau khi tinh chỉnh.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim