Firecrawl يعيد كتابة محرك تحليل PDF باستخدام Rust، بسرعة تصل إلى 5.7 مرات أعلى من السابق

robot
إنشاء الملخص قيد التقدم

أخبار ME News، في 15 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 1M AI News، أطلقت أداة استخراج بيانات الويب Firecrawl محرك تحليل PDF المعاد كتابته باستخدام لغة Rust، والذي يُعرف بـ Fire-PDF، حيث رفع سرعة تحويل PDF إلى Markdown الهيكلي إلى 3.5 إلى 5.7 مرات من الجيل السابق، مع متوسط وقت معالجة الصفحة أقل من 400 مللي ثانية.
الزيادة في السرعة تعتمد بشكل رئيسي على تقليل استدعاءات GPU غير الضرورية.
كما أطلقت Firecrawl مكتبة Rust المفتوحة المصدر pdf-inspector، التي يمكنها تصنيف صفحات PDF بسرعة ملليثانية: الصفحات النصية الصافية تُستخرج مباشرة بدون استخدام GPU؛ فقط الصفحات التي تحتوي على مسح ضوئي أو صور مكثفة تُرسل إلى نماذج الشبكة العصبية لتخطيط الصفحة ونموذج GLM-OCR للغة البصرية.
كمثال، تقرير مالي يتكون من 150 صفحة نص و60 صفحة مسح ضوئي، معظم الصفحات لا تحتاج إلى GPU.
فيما يخص الدقة، يحدد Fire-PDF معايير مختلفة لأنواع المحتوى المختلفة: الجداول تحصل على حد أعلى من الرموز المميزة ووقت إنشاء يصل إلى 25 ثانية، والمعادلات تُحتفظ بصيغة LaTeX، والتخطيط متعدد الأعمدة يُتوقع بواسطة الشبكة العصبية لترتيب القراءة.
تم تفعيل Fire-PDF تلقائيًا لجميع مستخدمي Firecrawl، دون الحاجة إلى إعدادات.
(المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت