أصدرت TII نموذجين مفتوحين المصدر من Falcon Vision: النموذج 0.6B للتقسيم يتفوق على SAM 3 مع زيادة تعقيد اللغة

robot
إنشاء الملخص قيد التقدم

وفقًا لمتابعة 1M AI News، قامت معهد الابتكار التكنولوجي (TII) في الإمارات العربية المتحدة بإصدار نموذجين للرؤية: Falcon Perception وFalcon OCR، على Hugging Face. يستخدم كلا النموذجين بنية Transformer واحدة من نوع “الاندماج المبكر” (early fusion): تشارك رقع الصور (image patches) وتوكنات النص مساحة المعلمات، حيث تستخدم توكنات الصور انتباهًا ثنائي الاتجاه، بينما تستخدم توكنات النص انتباهًا سببيًا، ما يلغي تصميم التسلسل التقليدي “مُشفّر بصري + مُفكك نصوص”. يتيح ذلك للنماذج فهم القيود المكانية وعلاقات الأجسام في اللغة الطبيعية بشكل حقيقي، بدلًا من مجرد إجراء استرجاع دلالي لميزات بصرية. لدى Falcon Perception 0.6B من المعلمات، وهي مصممة لتجزئة وتحديد المواقع عبر مفردات مفتوحة. حققت درجة Macro-F1 بلغت 68.0 على معيار SA-Co، متجاوزةً درجة Meta SAM 3 التي بلغت 62.3. كما أطلقت TII معيارًا تشخيصيًا PBench، الذي يقيم القدرات بشكل هرمي. يُظهر Falcon Perception أكبر تقدم في المهام التي تتطلب فهمًا للغة: 1. L2 (التعرّف الموجّه بواسطة OCR، مثل العثور على ‘a bottle labeled 168’): 38.0 مقابل 24.6 لـ SAM 3 (+13.4) 2. L3 (العلاقات المكانية، مثل ‘the black car on the left’ و’the third window from the left’): 53.5 مقابل 31.6 لـ SAM 3 (+21.9) 3. L4 (العلاقات التفاعلية، مثل ‘the person holding an umbrella’ و’the person using a phone’): 49.1 مقابل 33.3 لـ SAM 3 (+15.8) 4. المشاهد الكثيفة (مئات الحالات تتعايش): 72.6 مقابل 58.4 لـ SAM 3 (+14.2). الفجوة بالنسبة للأجسام البسيطة (L0) هي +0.8 فقط، ما يؤكد الاتجاه المتمثل في اتساع التفاوت مع تعقيد اللغة. من حيث معايرة وجود المثيل (ما إذا كانت الجهة المستهدفة موجودة)، لا يزال SAM 3 يحتفظ بميزة: MCC 0.82 مقابل 0.64. لدى Falcon OCR 0.3B من المعلمات، ويعيد استخدام البنية نفسها لكنه تم تدريبه من الصفر، ومصمم تحديدًا لفهم المستندات. سجل 80.3 على معيار olmOCR (فارق 1.7 نقطة عن الصدارة)، متصدرًا جميع النماذج المُختبرة في تخطيطات متعددة الأعمدة (87.1%) واستخراج الجداول (90.3%); كما سجل 88.64 على OmniDocBench، متجاوزًا نماذج أكبر من ناحية عدد المعلمات أو تلك التي تعتمد على بنية تحتية مملوكة مثل DeepSeek OCR v2 وGPT 5.2 وMistral OCR 3. وفقًا لـ TII، يُعد Falcon OCR أعلى نموذج OCR مفتوح المصدر من حيث الإنتاجية، محققًا اختبار تزامن مرتفع بلغ 5,825 توكنًا في الثانية على معالج A100-80GB واحد (حوالي 2.9 صورة في الثانية لعملية المعالجة الكاملة). أصبح كلا النموذجين متاحًا الآن كمصدر مفتوح على Hugging Face، حيث يقدم Falcon Perception Playground عبر الإنترنت.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.21Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.27Kعدد الحائزين:2
    0.24%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.24Kعدد الحائزين:1
    0.15%
  • تثبيت