DeepSeek يطلق وضع التعرف على الصور، ويعتمد على إطار العمل الأصلي للسحب لدعم استنتاج CoT البصري

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، تم إطلاق وضع التعرف على الصور رسميًا على واجهة الويب وتطبيق DeepSeek (وضع الرؤية)، حيث يُعرض بجانب وضع السرعة ووضع الخبراء في أعلى مربع إدخال الحوار. القدرات الجديدة للفهم البصري ليست مجرد التعرف على النصوص (OCR)، بل تركز على التحليل العميق للمشاهد، والاستنتاج المنطقي المكاني، وتحويل لقطات شاشة واجهة المستخدم مباشرة إلى كود HTML منظم. بالنسبة للاستنتاجات الهندسية الصعبة أو تحليل الرسوم البيانية المعقدة، يقوم النظام تلقائيًا بتنشيط نموذج التفكير العميق، وتوفير سلسلة استنتاج كاملة.

يعتمد وضع التعرف على الصور على إطار البحث «التفكير باستخدام المبادئ البصرية» الذي أعلن عنه فريق DeepSeek. أشار الباحث متعدد الوسائط Xiaokang Chen مع جامعات بكين وتشنغوا في ورقة بحثية مشتركة إلى أن نماذج اللغة البصرية الحالية تعاني من «نقص في الإشارة» (Reference Gap) في تحديد المواقع الدقيقة والاستنتاج المكاني، أي أنها تواجه صعوبة في وصف الإحداثيات البصرية المعقدة باستخدام اللغة الطبيعية الغامضة. لهذا، قامت فريق البحث بترقية نقاط الإحداثيات وصناديق الحدود (Bounding Boxes) إلى وحدات فكرية صغيرة، ودمجها مباشرة في سلسلة التفكير (CoT) الخاصة بالنموذج أثناء الاستنتاج البصري، مما يتيح التوجيه المكاني في عملية التفكير بشكل متزامن.

كانت الورقة البحثية والمشروع المفتوح المصدر، اللذان يدعمان القدرات البصرية، قد أُطلقا بشكل مؤقت في 30 أبريل، لكن تم سحبه فجأة من قبل فريق DeepSeek في 1 مايو دون سابق إنذار، مما أثار تكهنات في الصناعة حول تسريب التفاصيل التقنية بشكل مفرط وإمكانية تحسين النموذج لاحقًا. وضع التعرف على الصور المُطلق رسميًا يدعم فقط إدخال الصور، ولا يدعم حاليًا تنسيقات الوسائط المتعددة مثل الفيديو والصوت، كما أن النموذج لا يمتلك حاليًا القدرة على توليد الصور.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت