Fara-7B يستخدم لقطات الشاشة + النص للتنبؤ المباشر لإحداثيات النقر، مما يشبه تزويد الذكاء الاصطناعي بعينين ويدين، والترخيص المفتوح المصدر من MIT هو بمثابة ورقة رابحة.

شاهد النسخة الأصلية
MeNews
مايكروسوفت تطلق أول نموذج لوكيل ذكي للتحكم بالحاسوب بوساطة 7 مليارات معلمة فارا-7B
أطلقت شركة مايكروسوفت Fara-7B، وهو وكيل ذكي متعدد الوسائط بقدرة 7 مليارات معلمة، مصمم خصيصًا لسيناريوهات استخدام الحاسوب. يمكنه معالجة لقطات الشاشة والنصوص في آن واحد، والتنبؤ مباشرة بسلاسل تفكير مع معلمات وإجراءات تشغيل، مبني على Qwen 2.5-VL، مع سياق يبلغ 128 ألف، وتدريب على 64 وحدة H100 لمدة يومين ونصف، ونشر بموجب ترخيص MIT. يتعرف من خلال لقطات الشاشة على مدخلات المتصفح، ويجمع بين الاستنتاج وتوقع الحالة التاريخية لتحديد الخطوة التالية والإحداثيات والمعلمات الأخرى، ويعتمد على بيانات اصطناعية واسعة النطاق. يمتلك قدرة على تخطيط وتنفيذ مهام عالية المستوى، ويعتمد على توازن آمن بعد التدريب القوي، قادر على رفض المهام المخالفة والتوقف عند النقاط الحرجة. يمكن نشره والتفاعل معه عبر GitHub و vllm و fara-cli، ويستخدم لأتمتة مهام الويب.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت