Firecrawl reescribe su motor de análisis de PDF en Rust, alcanzando una velocidad hasta 5.7 veces mayor que antes

ME News Noticias, 15 de abril (UTC+8), según la monitorización de 1M AI News, la herramienta de extracción de datos web Firecrawl lanzó Fire-PDF, un motor de análisis de PDF reescrito en Rust, que lleva la velocidad de conversión de PDF a Markdown estructurado a entre 3.5 y 5.7 veces la generación anterior, con un tiempo promedio por página inferior a 400 milisegundos.
La aceleración se logra principalmente reduciendo llamadas innecesarias a la GPU.
Firecrawl también ha abierto en sincronía la biblioteca Rust pdf-inspector, que puede clasificar cada página de PDF en milisegundos: las páginas de texto puro se extraen directamente en su forma nativa, saltándose la GPU; solo las páginas con escaneos o muchas imágenes se envían a modelos de disposición de redes neuronales y modelos de lenguaje visual GLM-OCR para su procesamiento.
Tomando como ejemplo un informe financiero de 150 páginas de texto más 60 páginas de escaneos, la mayoría de las páginas no requieren GPU.
En cuanto a precisión, Fire-PDF ajusta sus parámetros según el tipo de contenido: las tablas tienen un límite de tokens más alto y un tiempo máximo de 25 segundos para su generación, las fórmulas se conservan en LaTeX, y el orden de lectura en diseños de varias columnas se predice mediante redes neuronales.
Fire-PDF ya está activado automáticamente para todos los usuarios de Firecrawl, sin necesidad de configuración.
(Origen: BlockBeats)

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado