هل يمكن لـ7B من المعلمات التحكم في المتصفح؟ مسار دمج البيانات البصرية والاستنتاج الذي تتبعه Fara-7B يبدو مثيرًا للاهتمام، وترخيص MIT هو بمثابة خطوة مباشرة نحو فتح المصدر وتوسيع الميزات.

شاهد النسخة الأصلية
MeNews
مايكروسوفت تطلق أول نموذج لوكيل ذكي يتحكم بالحاسوب بوساطة 7 مليارات معلمة فارا-7B
أطلقت شركة مايكروسوفت Fara-7B، وهو وكيل ذكي متعدد الوسائط بقدرة 7 مليارات معلمة، مصمم خصيصًا لسيناريوهات استخدام الحاسوب. يمكنه معالجة لقطات الشاشة والنصوص في آن واحد، والتنبؤ مباشرة بسلاسل تفكير مع معلمات وإجراءات تشغيل، مبني على Qwen 2.5-VL، مع سياق يبلغ 128 ألف، وتدريب على 64 وحدة H100 لمدة يومين ونصف، ونشر بموجب ترخيص MIT. يتعرف على مدخلات المتصفح من خلال لقطات الشاشة، ويجمع بين الاستنتاج وتوقع الحالة التاريخية لتحديد الإجراء التالي والمعلمات مثل الإحداثيات، ويعتمد على بيانات اصطناعية واسعة النطاق. يمتلك قدرة على تخطيط وتنفيذ مهام عالية المستوى، ويستخدم توافقًا آمنًا بعد التدريب بشكل قوي، قادر على رفض المهام المخالفة والتوقف عند النقاط الحرجة. يمكن نشره والتفاعل معه عبر GitHub و vllm و fara-cli، ويستخدم لأتمتة مهام الويب.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت