وفقًا لتقرير Beating، يمكن لنموذج Phi-Ground المفتوح المصدر أن ينتج إحداثيات النقر الدقيقة بعد إدخال لقطة شاشة وأمر. نسخة الـ 4 مليارات معلمات، التي تم تخطيطها بواسطة الأوامر، تتفوق على OpenAI Operator وClaude Computer Use في معايير مثل Showdown، وتتقدم على نماذج مماثلة في العديد من التقييمات. استخدم الفريق 40 مليون قطعة من البيانات للتحقق، ووجد أن كتابة الإحداثيات مباشرة كأرقام عادية كانت الأكثر فاعلية، وأن إدخال الأوامر النصية قبل الصورة يحقق قراءة أحادية الاتجاه. كما عززوا أداء المهام البصرية الصرفة من خلال التعلم المعزز DPO، واستخدموا طريقة تدريب تعتمد على لصق لقطات الشاشة المصغرة على لوحة بيضاء في سيناريوهات الشاشات عالية الدقة، مع نتائج ملحوظة في تطبيقات مثل Photoshop وغيرها.

BlockBeatNews

2026-05-10 04:21:00

إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، أطلقت شركة مايكروسوفت نموذج عائلة Phi-Ground مفتوح المصدر، متخصص في حل مشكلة “أي نقطة على الشاشة” عند تحكم الذكاء الاصطناعي بالحاسوب. مع صورة شاشة وأمر واحد، يُنتج النموذج إحداثيات النقر الدقيقة. النسخة المفتوحة المصدر ذات 4 مليارات معلمة، عند دمجها مع نموذج كبير لتخطيط الأوامر، تجاوزت دقة النقر في اختبار المعيار Showdown كل من OpenAI Operator و Claude Computer Use، وحصلت على المركز الأول في جميع التقييمات الخمسة بما في ذلك ScreenSpot-Pro، والتي تقل فيها المعلمات عن مائة مليار.

استخدم الفريق أكثر من 40 مليون قطعة من البيانات لإجراء اختبار واسع النطاق، ووجد أن التقنيات الثلاثة التي كانت شائعة في الأبحاث الأكاديمية سابقًا، أصبحت غير فعالة بعد زيادة حجم البيانات. الطريقة الفعالة حقًا بسيطة: يتم إخراج الإحداثيات كأرقام عادية، مثل “523، 417”. كانت العديد من الأوراق السابقة قد اخترعت مجموعة من المفردات الخاصة بالموقع للأحداثيات، على أمل أن يتحدث النموذج عن الإحداثيات كما يتحدث عن الكلمات، لكن عند التدريب على نطاق واسع، لم يتعلم النموذج هذه المفردات الجديدة بشكل جيد، بل أدى ذلك إلى انهياره. عامل مهم آخر هو وضع الأوامر النصية قبل إدخال الصورة. النموذج الكبير يقرأ المعلومات بشكل أحادي الاتجاه، فيقرأ “انقر على أيقونة الإعداد الزرقاء” قبل النظر إلى الصورة، وعند معالجة البكسلات، يكون قد عرف بالفعل ما يبحث عنه؛ أما إذا نظر إلى الصورة أولاً، فسيقوم فقط بمسحها بشكل أعمى، مما يقلل من الأداء بشكل كبير.

اكتشف الفريق أيضًا أن التعلم المعزز مفيد حتى للمهام البصرية الصافية. يتم ذلك بجعل النموذج يتوقع النقرات على نفس الصورة عدة مرات، ومقارنة النتائج الصحيحة والخاطئة للتدريب (هذه الطريقة تسمى DPO، وهي نوع من التعلم المعزز). حتى بعد ضبط النموذج بشكل كامل، لا تزال هذه الخطوة تحسن الدقة بشكل واضح. عادةً، يُستخدم التعلم المعزز فقط في مهام اللغة التي تتطلب استنتاجات، لكن أن يُستخدم في مهام الإدراك الصافية “مشهد الصورة وضرب النقاط” كان مفاجأة. لمشكلة أزرار الشاشة عالية الدقة على شاشات 4K الصغيرة جدًا (قد يشغل الزر مساحة 0.07% فقط من الشاشة)، قام الفريق خلال التدريب بتصغير الصورة الملتقطة ثم لصقها على لوحة بيضاء كبيرة، لمحاكاة السيناريو الحقيقي لعناصر صغيرة جدًا على شاشات عالية الدقة. كانت هذه التقنية فعالة بشكل خاص في برامج تحرير الصور المعقدة مثل Photoshop.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareMayTradingShare
1.06M درجة الشعبية
#
BTCBackAbove80K
59.45M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
45.63K درجة الشعبية
#
JapanTokenizesGovernmentBonds
1.91M درجة الشعبية
#
#DailyPolymarketHotspot
872.88K درجة الشعبية

تثبيت

خريطة الموقع

مايكروسوفت تفتح مصدر Phi-Ground: دقة النقر بـ 4 مليارات معلمة تفوقت على Operator وClaude

المواضيع الرائجة

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

تثبيت