Microsoft phát hành mô hình trí tuệ nhân tạo điều khiển máy tính đầu tiên với 7 tỷ tham số Fara-7B

robot
Đang tạo bản tóm tắt
AIMPACT Tin nhắn, ngày 16 tháng 5 (UTC+8), Microsoft ra mắt Fara-7B, đây là mô hình trí tuệ nhân tạo nhỏ ngôn ngữ 7B đầu tiên được thiết kế đặc biệt cho các tình huống sử dụng máy tính. Mô hình này sử dụng kiến trúc bộ giải mã đa mô hình, có thể nhận diện hình ảnh chụp màn hình và ngữ cảnh văn bản, dự đoán trực tiếp chuỗi suy nghĩ có tham số và hành động thao tác. Được xây dựng dựa trên Qwen 2.5-VL (7B), hỗ trợ độ dài ngữ cảnh 128k, huấn luyện trong 2,5 ngày trên 64 GPU H100, phát hành theo giấy phép MIT vào ngày 24 tháng 11 năm 2025. Fara-7B có khả năng cảm nhận trình duyệt qua hình ảnh chụp màn hình, kết hợp suy luận nội bộ và ghi lại trạng thái lịch sử để dự đoán bước tiếp theo và các tham số (như tọa độ nhấp chuột), dựa vào bộ dữ liệu tổng hợp quy mô lớn để huấn luyện. Mô hình có thể lập kế hoạch và thực hiện các nhiệm vụ cao cấp (như đặt bàn ăn, xin việc, lập kế hoạch du lịch, v.v.). Trong lĩnh vực an toàn và phù hợp, sử dụng phương pháp huấn luyện hậu ổn định, có khả năng nhận diện các điểm mấu chốt, có thể từ chối bảy loại nhiệm vụ vi phạm chính sách sử dụng, và tạm dừng thao tác tại các điểm dừng quan trọng như nhập thông tin cá nhân, hoàn tất mua hàng. Người dùng có thể triển khai và tương tác qua kho lưu trữ GitHub, vllm và công cụ fara-cli, chủ yếu ứng dụng trong tự động hóa các nhiệm vụ trên web. (Nguồn: InFoQ)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 8
  • 3
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
AirdropNightwatch
· 5giờ trước
Trong lĩnh vực tự động hóa trình duyệt, cảm giác như phải đối đầu trực diện với Browser-use và Computer-use
Xem bản gốcTrả lời0
MintCondition
· 6giờ trước
Tự động hóa nhiệm vụ trang web, cuối cùng không cần phải viết nhiều bộ chọn nữa
Xem bản gốcTrả lời0
SaveABitOnGasFees
· 6giờ trước
Sau khi huấn luyện lại, tỷ lệ dữ liệu đã được căn chỉnh là bao nhiêu? Bài báo sắp được công bố.
Xem bản gốcTrả lời0
GateUser-83c80dd0
· 6giờ trước
7B tham số làm lập kế hoạch agent, nhẹ nhưng giới hạn khả năng cần được kiểm tra thực tế
Xem bản gốcTrả lời0
GateUser-bee672a5
· 6giờ trước
fara-cli triển khai trải nghiệm đang chờ thử nghiệm, hy vọng không giống như một số tài liệu dự án kém cỏi
Xem bản gốcTrả lời0
Half-SectionSucculent
· 6giờ trước
Dự đoán tọa độ + chuỗi suy nghĩ, kiểm soát chi tiết hơn nhiều so với API văn bản thuần túy
Xem bản gốcTrả lời0
0xLateCoffee
· 6giờ trước
128k ngữ cảnh + cảm nhận qua ảnh chụp màn hình, sự kết hợp này có chút tiềm năng
Xem bản gốcTrả lời0
CandleChaser
· 6giờ trước
Giấy phép MIT được đánh giá cao, 7B có thể chạy cục bộ rồi
Xem bản gốcTrả lời0
  • Đã ghim