مايكروسوفت تطلق أول نموذج لوكيل ذكي للتحكم بالحاسوب بـ7 مليارات معلمة Fara-7B

robot
إنشاء الملخص قيد التقدم
AIMPACT رسالة، 16 مايو (UTC+8)، أطلقت مايكروسوفت Fara-7B، وهو أول نموذج ذكي صغير مكون من 7 مليارات معلمة مصمم خصيصًا لسيناريوهات استخدام الحاسوب. يعتمد النموذج على بنية فك التشفير متعددة الوسائط، ويمكنه استقبال لقطات الشاشة والنصوص السياقية، والتنبؤ مباشرة بسلاسل تفكير ومعاملات عملياتية ذات معلمات. تم بناؤه على أساس Qwen 2.5-VL (7B)، ويدعم طول سياق يصل إلى 128 ألف، وتم تدريبه على مدى يومين ونصف على 64 وحدة GPU من نوع H100، ونُشر بموجب ترخيص MIT في 24 نوفمبر 2025. يتيح Fara-7B الإدراك من خلال لقطات الشاشة وتصفح المدخلات، ويجمع بين الاستنتاج الداخلي وسجلات الحالة التاريخية للتنبؤ بالخطوة التالية والإجراءات والمعلمات (مثل إحداثيات النقر)، ويعتمد في تدريبه على مجموعة بيانات اصطناعية ضخمة. يمكن للنموذج تخطيط وتنفيذ مهام عالية المستوى (مثل حجز المطاعم، التقدم لوظائف، تخطيط الرحلات، وغيرها). فيما يخص التوافق مع السلامة، يستخدم أسلوب تدريب ما بعد التعزيز القوي، ويملك قدرة على التعرف على النقاط الحرجة، ويستطيع رفض سبع فئات من المهام التي تنتهك سياسات الاستخدام، ويوقف العمليات عند نقاط توقف رئيسية مثل إدخال المعلومات الشخصية وإتمام عمليات الشراء. يمكن للمستخدمين نشر النموذج والتفاعل معه عبر مستودع GitHub، وvllm، وأداة fara-cli، ويُستخدم بشكل رئيسي في أتمتة مهام الويب. (المصدر: InFoQ)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 11
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
MintCondition
· منذ 4 س
التوافق الآمن بعد التدريب + توقف النقاط الرئيسية، هذا النهج في التصميم واضح أنه استفاد من الدروس السابقة
شاهد النسخة الأصليةرد0
DepegDaydream
· منذ 4 س
تدريب باستخدام بيانات اصطناعية كاملة، ودورة البيانات مغلقة، وسيكون تكلفة التكرار اللاحق أقل وأقل
شاهد النسخة الأصليةرد0
BlueberryStakingMachine
· منذ 5 س
معالجة لقطات الشاشة والنصوص في نفس الوقت، أصبح تعدد الوسائط أخيرًا ضرورة وليس مجرد دعاية
شاهد النسخة الأصليةرد0
LatencyMonk
· منذ 6 س
64 بطاقة H100 للتدريب لمدة 2.5 يومًا، هذه الكفاءة والتكلفة أقل مما توقعت.
شاهد النسخة الأصليةرد0
BridgeAnxiety
· منذ 6 س
توقع الإحداثيات والمعلمات هذا أمر حاسم جدًا، سابقًا باستخدام GPT-4V كان يتطلب المعالجة اللاحقة بنفسك
شاهد النسخة الأصليةرد0
YieldBento
· منذ 6 س
fara-cli تفاعل مباشر عبر سطر الأوامر، متعة للمحترفين، سأجربه غدًا
شاهد النسخة الأصليةرد0
BluePeonyDoesn'tDrop
· منذ 6 س
يمكنك رفض المهام المخالفة والمبادرة أيضًا بإيقافها مؤقتًا، وهذا التوافق الأمني أكثر دقة من بعض النماذج المغلقة المصدر.
شاهد النسخة الأصليةرد0
PurpleMistLily
· منذ 6 س
128k سياق + إدراك لقطات الشاشة، أتمتة المتصفح لم تعد بحاجة لكتابة الكثير من XPath
شاهد النسخة الأصليةرد0
LonelyStoneUnderTheAurora
· منذ 6 س
ترخيص MIT يعني أنه يمكن التعديل التجاري، وشركات التغليف المحلية جاهزة
شاهد النسخة الأصليةرد0
IdleFishDaoMember
· منذ 6 س
Qwen 2.5-VL القاعدة + البيانات التركيبية، مسار البيانات التركيبية أصبح أكثر شعبية تدريجيًا
شاهد النسخة الأصليةرد0
عرض المزيد
  • مُثبت