Microsoft phát hành Fara-7B, một trí tuệ nhân tạo đa mô hình với 7 tỷ tham số, được thiết kế đặc biệt cho các tình huống sử dụng máy tính. Có thể xử lý đồng thời ảnh chụp màn hình và văn bản, dự đoán trực tiếp chuỗi suy nghĩ và hành động có tham số, dựa trên xây dựng của Qwen 2.5-VL, bối cảnh 128k, huấn luyện 64 khối H100 trong 2,5 ngày, phát hành theo giấy phép MIT. Nó cảm nhận đầu vào trình duyệt qua ảnh chụp màn hình, kết hợp suy luận và dự đoán trạng thái lịch sử để xác định bước tiếp theo cùng các tham số như tọa độ, v.v., dựa trên dữ liệu tổng hợp quy mô lớn. Có khả năng lập kế hoạch và thực thi các nhiệm vụ cao cấp, đồng thời sử dụng phương pháp huấn luyện an toàn ổn định để phù hợp, có thể từ chối nhiệm vụ vi phạm quy định và tạm dừng tại các điểm quan trọng. Có thể triển khai và tương tác qua GitHub, vllm, fara-cli, dùng cho tự động hóa các nhiệm vụ trên web.

MeNews

2026-05-27 00:32:37

Đang tạo bản tóm tắt

AIMPACT Tin nhắn, ngày 16 tháng 5 (UTC+8), Microsoft ra mắt Fara-7B, đây là mô hình trí tuệ nhân tạo nhỏ ngôn ngữ 7B đầu tiên được thiết kế đặc biệt cho các kịch bản sử dụng máy tính. Mô hình này sử dụng kiến trúc bộ giải mã đa mô hình, có thể nhận diện hình ảnh chụp màn hình và ngữ cảnh văn bản, dự đoán trực tiếp chuỗi suy nghĩ có tham số và hành động thao tác. Được xây dựng dựa trên Qwen 2.5-VL (7B), hỗ trợ độ dài ngữ cảnh 128k, huấn luyện trong 2,5 ngày trên 64 GPU H100, phát hành theo giấy phép MIT vào ngày 24 tháng 11 năm 2025. Fara-7B cảm nhận qua hình ảnh chụp màn hình để duyệt nhập liệu, kết hợp suy luận nội bộ và ghi lại trạng thái lịch sử để dự đoán bước tiếp theo và các tham số (như tọa độ nhấp chuột), dựa vào bộ dữ liệu tổng hợp quy mô lớn để huấn luyện. Mô hình có khả năng lập kế hoạch và thực hiện các nhiệm vụ cao cấp (như đặt bàn ăn, xin việc, lập kế hoạch du lịch, v.v.). Trong lĩnh vực an toàn và phù hợp, sử dụng phương pháp huấn luyện hậu cần vững chắc, có khả năng nhận diện các điểm mấu chốt, có thể từ chối bảy loại nhiệm vụ vi phạm chính sách sử dụng, và tạm dừng thao tác tại các điểm dừng quan trọng như nhập thông tin cá nhân, hoàn tất mua hàng. Người dùng có thể triển khai và tương tác qua kho lưu trữ GitHub, vllm và công cụ fara-cli, chủ yếu ứng dụng trong tự động hóa các nhiệm vụ trên web. (Nguồn: InFoQ)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

10 thích

Phần thưởng
10
11
Đăng lại
Retweed

Bình luận

Thêm một bình luận

MintCondition

· 8giờ trước

Sau huấn luyện an toàn phù hợp + tạm dừng các điểm chính, ý tưởng thiết kế rõ ràng đã học được bài học.

Xem bản gốcTrả lời0

DepegDaydream

· 8giờ trước

Huấn luyện dữ liệu tổng hợp hoàn chỉnh, vòng lặp dữ liệu đã được đóng, chi phí cho các lần lặp tiếp theo sẽ ngày càng thấp hơn

Xem bản gốcTrả lời0

BlueberryStakingMachine

· 9giờ trước

Xử lý đồng thời hình chụp màn hình và văn bản, đa phương tiện cuối cùng không còn là chiêu trò mà trở thành nhu cầu thiết yếu

Xem bản gốcTrả lời0

LatencyMonk

· 9giờ trước

64 card H100 huấn luyện 2.5 ngày, chi phí và hiệu quả này thấp hơn tôi nghĩ.

Xem bản gốcTrả lời0

BridgeAnxiety

· 9giờ trước

Dự đoán tọa độ và tham số này quá quan trọng, trước đây dùng GPT-4V còn phải tự xử lý hậu kỳ

Xem bản gốcTrả lời0

YieldBento

· 9giờ trước

fara-cli trực tiếp tương tác dòng lệnh, các kỹ sư công nghệ vui mừng, ngày mai sẽ thử xem sao

Xem bản gốcTrả lời0

BluePeonyDoesn'tDrop

· 9giờ trước

Có thể từ chối nhiệm vụ vi phạm quy định và chủ động tạm dừng, điều này đảm bảo an toàn còn tốt hơn một số mô hình đóng nguồn.

Xem bản gốcTrả lời0

PurpleMistLily

· 9giờ trước

128k ngữ cảnh + nhận thức về ảnh chụp màn hình, tự động hóa trình duyệt cuối cùng không cần phải viết nhiều XPath nữa

Xem bản gốcTrả lời0

LonelyStoneUnderTheAurora

· 9giờ trước

Giấy phép MIT có nghĩa là có thể thương mại hóa và chỉnh sửa, các công ty đóng gói trong nước đã chuẩn bị sẵn sàng

Xem bản gốcTrả lời0

IdleFishDaoMember

· 9giờ trước

Qwen 2.5-VL đế + dữ liệu tổng hợp hoàn toàn, tuyến đường dữ liệu tổng hợp ngày càng trở nên phổ biến

Xem bản gốcTrả lời0

Xem thêm

Chủ đề thịnh hành
Xem thêm
#
StockTradingChallengeUpTo17000U
16.23M Phổ biến
#
TrumpBacksCFTCAuthorityOverPredictionMarkets
820.58K Phổ biến
#
IsraelStrikesIranBTCPlunges
49.57K Phổ biến
#
GatePredictionMarketAddsSmartMoneyTracking
13.21M Phổ biến
#
MicronMarketCapBreaks1Trillion
38.62K Phổ biến

Đã ghim

sơ đồ trang web

Microsoft phát hành mô hình trí tuệ nhân tạo điều khiển máy tính đầu tiên với 7 tỷ tham số Fara-7B

Chủ đề thịnh hành

StockTradingChallengeUpTo17000U

TrumpBacksCFTCAuthorityOverPredictionMarkets

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

MicronMarketCapBreaks1Trillion

Đã ghim