Fara-7B sử dụng ảnh chụp màn hình + văn bản để dự đoán trực tiếp tọa độ nhấp chuột, tương đương như trang bị cho AI đôi mắt và tay, giấy phép MIT mở mã nguồn càng làm tăng sức mạnh.

Xem bản gốc
MeNews
Microsoft phát hành mô hình trí tuệ nhân tạo điều khiển máy tính đầu tiên với 7 tỷ tham số Fara-7B
Microsoft phát hành Fara-7B, một trí tuệ nhân tạo đa mô thức với 7 tỷ tham số, được thiết kế đặc biệt cho các tình huống sử dụng máy tính. Có thể xử lý đồng thời ảnh chụp màn hình và văn bản, dự đoán trực tiếp chuỗi suy nghĩ và hành động có tham số, dựa trên xây dựng của Qwen 2.5-VL, bối cảnh 128k, huấn luyện 64 khối H100 trong 2,5 ngày, phát hành theo giấy phép MIT. Nó cảm nhận đầu vào trình duyệt qua ảnh chụp màn hình, kết hợp suy luận và dự đoán trạng thái lịch sử để xác định bước tiếp theo cùng các tham số như tọa độ, v.v., dựa trên dữ liệu tổng hợp quy mô lớn. Có khả năng lập kế hoạch và thực thi các nhiệm vụ cao cấp, sử dụng phương pháp huấn luyện an toàn ổn định, có thể từ chối nhiệm vụ vi phạm quy định và tạm dừng tại các điểm quan trọng. Có thể triển khai và tương tác qua GitHub, vllm, fara-cli, dùng cho tự động hóa các nhiệm vụ trên web.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim