Firecrawl يعيد كتابة محرك تحليل PDF باستخدام Rust، بسرعة تصل إلى 5.7 مرات أعلى من السابق

robot
إنشاء الملخص قيد التقدم

أخبار ME News، في 15 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 1M AI News، أطلقت أداة استخراج بيانات الويب Firecrawl محرك تحليل PDF المعاد كتابته باستخدام Rust، والذي يُعرف بـ Fire-PDF، حيث رفع سرعة تحويل PDF إلى Markdown الهيكلي إلى 3.5 إلى 5.7 مرات من الجيل السابق، مع وقت معالجة أقل من 400 مللي ثانية لكل صفحة.
الزيادة في السرعة تعتمد بشكل رئيسي على تقليل استدعاءات GPU غير الضرورية.
كما أطلقت Firecrawl مكتبة Rust المفتوحة المصدر pdf-inspector، التي يمكنها تصنيف صفحات PDF بسرعة ملليثانية:
الصفحات النصية الصافية تُستخرج مباشرة بشكل أصلي وتتجاوز GPU؛
أما الصفحات التي تحتوي على مسح ضوئي أو صور مكثفة فتُرسل إلى نموذج الشبكة العصبية لتخطيط الصفحة ونموذج GLM-OCR للغة البصرية والمعالجة.
كمثال، تقرير مالي يتكون من 150 صفحة نص و60 صفحة مسح ضوئي، معظم الصفحات لا تحتاج إلى GPU.
فيما يخص الدقة، يحدد Fire-PDF معايير مختلفة لأنواع المحتوى المختلفة:
الجدول يحصل على حد أعلى من الرموز المميزة ووقت أقصى قدره 25 ثانية لإنشاء المحتوى، والمعادلات تُحفظ بصيغة LaTeX، والتخطيط متعدد الأعمدة يُتوقع بواسطة الشبكة العصبية لترتيب القراءة.
تم تفعيل Fire-PDF تلقائيًا لجميع مستخدمي Firecrawl، دون الحاجة إلى إعدادات.
(المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت