قاد فريق DeepSeek الأساسي قبل ذلك، أطلقت بايدو نموذج تحليل المستندات 3B مفتوح المصدر Unlimited OCR

robot
إنشاء الملخص قيد التقدم
أنا AI رسالة، وفقًا لمراقبة Beating، قامت شركة بايدو بفتح مصدر نموذج تحليل المستندات الذكي Unlimited-OCR ونشرت تقريرًا تقنيًا. يظهر توقيع التقرير أن مدير التقنية للمشروع هو عضو غامض يحمل اسم مستعار «YY». يتكهن الصناعة على نطاق واسع أن الهوية الحقيقية لـ «YY» هي المؤلف الرئيسي السابق لـ DeepSeek-OCR، وي هاوران. كما أن نموذج Unlimited-OCR مبني على أساس DeepSeek-OCR. حقق نموذج Unlimited-OCR في اختبار معيار تحليل المستندات الطويلة OmniDocBench v1.6 درجة 93.92%، محطماً الرقم القياسي SOTA من النهاية إلى النهاية. عادةً، عند معالجة نماذج تحليل المستندات الكبيرة متعددة الصفحات، تتباطأ السرعة بشكل كبير وتستهلك ذاكرة فيديو عالية بسبب الزيادة الخطية في تخزين المفاتيح والقيم KV cache. لحل مشكلة التباطؤ، أدخلت بايدو آلية الانتباه ذات النافذة المنزلقة المرجعية R-SWA. عند توليد النص أثناء فك التشفير، يركز النموذج فقط على جميع ميزات الصورة والنص المُولد حديثًا ضمن نافذة ثابتة قريبة (افتراضيًا 128 رمزًا)، مما يحد من حجم KV cache الإجمالي إلى حد ثابت. لا تمنع R-SWA ضبابية التفاصيل الدقيقة للصورة مع تخلص النافذة، بل تضمن أيضًا أن تظل سرعة الاستدلال واستهلاك ذاكرة الفيديو ثابتين عند تحليل مستندات تتجاوز 40 صفحة، مع تسريع بنسبة 12.7% مقارنة بـ DeepSeek-OCR في الاختبار. حاليًا، قامت بايدو بفتح مصدر رمز ووزنات Unlimited-OCR بموجب رخصة MIT، ويدعم محركات رئيسية مثل Hugging Face Transformers و vLLM و SGLang، حيث دعم SGLang بالفعل تحسينات التخزين المؤقت لـ R-SWA. تخطط الفريق في المستقبل لنشر آلية الانتباه ذات النافذة المنزلقة المرجعية في مهام أخرى مثل التعرف على الصوت ASR والترجمة. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت