Unisound U1-OCR: النموذج الأساسي الأول لذكاء المستندات الصناعي الذي يفتح عصر OCR 3.0

SelfRugger · 2026-04-04T16:45:05+00:00

هذه بيان صحفي مدفوع. يرجى التواصل مع موزع البيان الصحفي مباشرة لأي استفسارات.Unisound U1-OCR: أول نموذج أساسي للذكاء الاصطناعي المستند إلى المستندات من الدرجة الصناعية يطلق OCR 3.0

SelfRugger

2026-04-04 16:45:05

هذه بيانات صحفية مدفوعة. تواصل مباشرةً مع موزّع البيانات الصحفية لأي استفسارات.

UniSound U1-OCR: أول نموذج أساسي لذكاء فهم المستندات على مستوى صناعي، يمهّد الطريق لعصر OCR 3.0

PR Newswire

الخميس، 26 فبراير 2026 الساعة 11:10 مساءً بتوقيت GMT+9 قراءة مدتها 3 دقائق

في هذه المقالة:

9678.HK

+1.93%

Unisound Unveils U1-OCR: The First Industrial-Grade Document Intelligence Model, Ushering in OCR 3.0 Era

بكين، 26 فبراير 2026 /PRNewswire/ – أعلنت Unisound رسميًا عن Unisound U1-OCR، وهو أول نموذج أساس عالمي على مستوى صناعي لذكاء فهم المستندات، وهو إصدار رائد يطلق عصر OCR 3.0 ويمهّد معيارًا جديدًا في الصناعة بفضل خمس نقاط قوة محورية: أداء SOTA، ونتائج قابلة للتحقق، ووظائف جاهزة خارج الصندوق، ونشر فعّال، وقابلية تكيف قوية.

يعتمد ذكاء فهم المستندات على الذكاء الاصطناعي لقراءة المستندات المرقمنة وفهمها وتصنيفها تلقائيًا واستخراج المعلومات الأساسية. كان OCR 1.0 يتيح التعرف الأساسي على النص فقط، بينما أضاف OCR 2.0 قدرات أولية لفهم تخطيط المستند. يقفز U1-OCR قفزة نوعية إلى OCR 3.0، متجاوزًا بكثير التعرف على التخطيط لتقديم نظرة دلالية عميقة، وتصنيف المستندات تلقائيًا، واستخراج معلومات على مستوى الأعمال—مما يمثل تحولًا تحويليًا من “إدراك الأحرف” إلى “إدراك المستندات”.

باعتباره نموذجًا لذكاء فهم المستندات بمستوى SOTA، يعالج U1-OCR الاختناق طويل الأمد في النماذج التقليدية التي “تتعرف على النص لكنها تفشل في فهم التخطيط”، مما يمكّنه من تفسير المستندات المعقدة مثل الخبراء البشر. إنه يبتكر استراتيجية “مدفوعة بالدلالات + تركيز ديناميكي”، حيث يقوم أولًا بتعيين البنية الهرمية للمستند للعناوين والبيانات الوصفية الهيكلية قبل استخراج المحتوى عند الطلب، ثم يبني خريطة دلالية لتحديد العلاقة بين العناوين والرسوم والنص—حتى في التخطيطات غير المنتظمة. تستفيد وحدة المواءمة المكانية المحسّنة من بيانات الموضع لاستعادة بنية المستند بدقة للجداول الكثيفة ومحتوى النص-الصورة المختلط، مما يخفف فعليًا من أخطاء التعرف المكاني. ومع تقنيات Multi-Token Prediction والتعلّم التعزيزي على مستوى المهام كاملة، فإنه يعزز كفاءة الاستدلال بأكثر من 80%، مع ضمان الاتساق المنطقي للمستندات الطويلة.

تم تدريبه باستخدام تعلّم تعزيزي تعاوني متعدد المهام وتم تحسينه لكلٍّ من الدلالات والإحداثيات، ويُخفِّض U1-OCR الهلاوس المكانية لإخراجات موثوقة، ويحقق نتائج على مستوى SOTA عبر أبرز الاختبارات المرجعية المعتمدة: تسجيل 95.1 في OmniDocBench V1.5، متفوقًا على نماذج رائدة مثل GLM-OCR وGemini-3-Pro; وبلوغ درجة F1 قدرها 90.8 في D4LA و95.9 في DocLayNet، مع تميّز في التعرف على الجداول والربط عبر الصفحات; وتجاوز نماذج مثل Gemini-2.5-Flash وQwen-2.5-VL في الاختبارات الداخلية للأعمال، مع أداء بارز في معالجة المستندات الطبية مثل سجلات القبول والخروج.

تستمر القصة

الشكل: مقارنة درجات تقييم Unisound U1-OCR على OmniDocBench V1.5 (PRNewsfoto/Unisound)

مصممًا للتطبيقات الصناعية الواقعية، يتميز U1-OCR بأربع قدرات رئيسية تَسد الفجوة بين فهم المستندات والعمل على مستوى الأعمال. تُمكّن بنية “إحداثيات-نص-دلالات” الخاصة به من تحديد التموضع على مستوى البكسل وتتبع الأدلة بالكامل، مما يجعل عمليات التدقيق أكثر شفافية وكفاءة. وبالاستفادة من خبرة Unisound الصناعية في مجالي الرعاية الصحية والتمويل، فإنه يحقق دقة تصنيف تتجاوز 99% لأكثر من 50 مستندًا تجاريًا شائعًا، ويدعم التحقق المنطقي عبر الحقول بقدرات zero-shot. وهو يدعم النشر الخاص داخل مقر العميل والنشر دون اتصال بالإنترنت مع توفير معالجة مستندات عالية الكفاءة، بما يلبّي متطلبات الخصوصية الصارمة للبيانات لقطاعات الحكومة والرعاية الصحية والتمويل مع خفض تكاليف الأجهزة. والأهم من ذلك، يقدّم أداءً مستقرًا ودقيقًا عاليًا في السيناريوهات القصوى—بما في ذلك الصور غير القياسية، والمستندات غير الواضحة، والتنسيقات المعقدة، والنص متعدد اللغات—مما يحرر الشركات من الاعتماد على صيغ المستندات القياسية.

تمت المصادقة عليه في حالات استخدام واقعية، حيث يتيح U1-OCR تتبعًا بصريًا للمعلومات المستخرجة، وتصنيفًا تلقائيًا للمستندات المختلطة، وتنفيذ تنقية ذكية للصور للمخططات المزدحمة، والتعرف الدقيق على الجداول المتداخلة المعقدة مع الاحتفاظ الكامل بالهيكل.

إن إطلاق U1-OCR يرمز إلى تطور الذكاء الاصطناعي من التعرف البسيط على النص إلى فهم منطق الأعمال، وهي خطوة رئيسية نحو AGI بالنسبة إلى Unisound. ومن خلال اعتبار المستندات متعددة الوسائط نقطة إدخال للمعرفة، تمكّن Unisound الآلات من قدرات الاستدلال الذاتي وتتبع الأدلة، بما يدفع الذكاء الاصطناعي من ذكاء الإدراك إلى ذكاء معرفي—مع الرؤية لبناء وكيل ذكي عام يقرأ ويفكر ويحل المشكلات المعقدة مثل البشر، وتحويل كل مستند إلى خطوة نحو AGI.

Cision

عرض المحتوى الأصلي لتنزيل الوسائط المتعددة:

الشروط وسياسة الخصوصية

لوحة الخصوصية

المزيد من المعلومات

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.