Firecrawl reescribe su motor de análisis de PDF en Rust, alcanzando una velocidad hasta 5.7 veces mayor que antes

robot
Generación de resúmenes en curso

ME News Noticias, 15 de abril (UTC+8), según la monitorización de 1M AI News, la herramienta de extracción de datos web Firecrawl lanzó Fire-PDF, un motor de análisis de PDF reescrito en Rust, que lleva la velocidad de conversión de PDF a Markdown estructurado a entre 3.5 y 5.7 veces la generación anterior, con un tiempo promedio por página inferior a 400 milisegundos. La clave del aumento de velocidad radica en reducir las llamadas innecesarias a la GPU. Firecrawl también ha abierto en sincronía la biblioteca Rust pdf-inspector, que puede clasificar cada página de PDF en milisegundos: las páginas de texto puro se extraen directamente de forma nativa, saltándose la GPU; solo las páginas con escaneos o muchas imágenes se envían a modelos de red neuronal de diseño y modelos de lenguaje visual GLM-OCR para su procesamiento. Tomando como ejemplo un informe financiero de 150 páginas de texto más 60 páginas de escaneos, la mayoría de las páginas no requieren GPU. En cuanto a precisión, Fire-PDF ajusta los parámetros según el tipo de contenido: las tablas obtienen límites de tokens más altos y un tiempo máximo de 25 segundos para su generación, las fórmulas se conservan en LaTeX, y el orden de lectura en diseños de varias columnas se predice mediante redes neuronales. Fire-PDF ya está activo automáticamente para todos los usuarios de Firecrawl, sin necesidad de configuración. (Fuente: BlockBeats)

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado