Firecrawl يعيد كتابة محرك تحليل PDF باستخدام Rust، مع زيادة السرعة إلى أقصى حد بنسبة 5.7 مرات سابقًا

robot
إنشاء الملخص قيد التقدم

أخبار ME News، في 15 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 1M AI News، أطلقت أداة استخراج بيانات الويب Firecrawl محرك تحليل PDF المعاد كتابته باستخدام Rust، والذي يُعرف بـ Fire-PDF، حيث رفع سرعة تحويل PDF إلى Markdown الهيكلي إلى 3.5 إلى 5.7 مرات من الجيل السابق، مع متوسط وقت معالجة الصفحة أقل من 400 مللي ثانية.
السرعة المحققة تعتمد بشكل رئيسي على تقليل استدعاءات GPU غير الضرورية.
كما أطلقت Firecrawl مكتبة Rust المفتوحة المصدر pdf-inspector، التي يمكنها تصنيف صفحات PDF بسرعة ملليثانية:
الصفحات النصية الصافية تُستخرج مباشرة بشكل أصلي وتتجاوز GPU؛
أما الصفحات التي تحتوي على مسح ضوئي أو صور مكثفة فتُرسل إلى نموذج الشبكة العصبية لتخطيط الصفحة ونموذج GLM-OCR للغة المرئية.
كمثال، في تقرير مالي يتكون من 150 صفحة نص و60 صفحة مسح ضوئي، معظم الصفحات لا تحتاج إلى GPU.
وفيما يتعلق بالدقة، يحدد Fire-PDF معايير لكل نوع محتوى:
الجدول يحصل على حد أعلى من الرموز المميزة ووقت إنشاء أقصى قدره 25 ثانية،
وتُحتفظ المعادلات بصيغة LaTeX،
ويتم التنبؤ بترتيب القراءة للصفحات ذات التخطيط متعدد الأعمدة عبر الشبكة العصبية.
لقد أصبح Fire-PDF مفعلاً تلقائيًا لجميع مستخدمي Firecrawl، دون الحاجة إلى إعدادات.
(المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت