وفقًا لـ Beating، أطلقت شركة مايكروسوفت مؤخرًا عائلة نماذج Phi-Ground مفتوحة المصدر، بهدف حل مشكلة "أين يجب أن ينقر الذكاء الاصطناعي على شاشة الكمبيوتر". هذا الإصدار الذي يضم 4 مليارات معلمة، ويجمع بين نموذج لغة أكبر مخصص لتخطيط الأوامر، تفوق على دقة النقر الخاصة بـ OpenAI Operator وClaude Computer Use في اختبار المعيار Showdown، واحتل المركز الأول بين جميع النماذج التي تقل عن 10 مليارات معلمة في خمسة تقييمات، بما في ذلك ScreenSpot-Pro. قامت الفريق بتدريب النموذج على أكثر من 40 مليون عينة بيانات، ووجد أن التقنيات الثلاثة الشائعة المستخدمة في الأوراق الأكاديمية أصبحت غير فعالة عند التوسع. الفكرة الأساسية كانت بسيطة جدًا: إخراج إحداثيات رقمية عادية، مثل "523، 417". لقد اخترع البحث السابق مفردات مخصصة للموقع للإحداثيات، لكن هذه الطرق لم تكن قابلة للتوسع. كما اكتشف الفريق أن وضع الأوامر النصية قبل الصورة يمكن أن يعزز الأداء، لأن النموذج يستطيع التعرف على الهدف عند معالجة البكسلات. بالإضافة إلى ذلك، فإن طرق التعلم المعزز مثل DPO لا تزال قادرة على تحسين الدقة بعد التخصيص.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت