مايكروسوفت تفتح مصدر Phi-Ground: دقة النقر بـ 4 مليارات معلمات تفوقت على Operator وClaude

robot
إنشاء الملخص قيد التقدم

أخبار شبكة العملات الرقمية، أطلقت شركة مايكروسوفت نموذج عائلة Phi-Ground كمصدر مفتوح، مخصص لحل مشكلة “أي نقطة على الشاشة” عند تحكم الذكاء الاصطناعي بالحاسوب. تجاوزت دقة النقر في النسخة المفتوحة ذات 4 مليارات معلمة على معيار Showdown أداء نماذج OpenAI مثل Operator وClaude، وحصلت على المركز الأول في جميع التقييمات الخمسة بما في ذلك Screenspot-Pro والتي تقل فيها عدد المعلمات عن مئة مليار. أجرت الفريق اختبارات واسعة النطاق باستخدام أكثر من 40 مليون قطعة من البيانات، واكتشفت أن التقنيات الثلاثة التي كانت تستخدم عادة في الأبحاث الأكاديمية فشلت جميعها عند زيادة حجم البيانات. الطريقة الفعالة كانت هي إخراج الإحداثيات كأرقام عادية، مثل “523، 417”. كما اكتشف الفريق أن التعلم المعزز مفيد أيضًا للمهام البصرية الصافية، والطريقة المحددة هي أن يجعل النموذج يتوقع نقاط النقر عدة مرات على نفس الصورة، ويقارن النتائج الصحيحة والخاطئة للتدريب. لمعالجة مشكلة صغر أزرار الشاشات عالية الدقة 4K، قام الفريق خلال التدريب بتصغير لقطات الشاشة بنسبة معينة ولصقها على لوحة ذات خلفية بيضاء كبيرة، لمحاكاة السيناريو الحقيقي لعناصر صغيرة جدًا على الشاشات عالية الدقة. كانت هذه الحيلة فعالة بشكل خاص في برامج تحرير الصور المعقدة مثل Photoshop وغيرها.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت