Firecrawl réécrit le moteur d'analyse PDF en Rust, la vitesse maximale augmentée jusqu'à 5,7 fois par rapport à avant

ME News Actualités, le 15 avril (UTC+8), selon la surveillance de 1M AI News, l’outil d’extraction de données web Firecrawl a publié Fire-PDF, un moteur d’analyse PDF réécrit en Rust, qui convertit les PDF en Markdown structuré à une vitesse 3,5 à 5,7 fois supérieure à celle de la génération précédente, avec un temps moyen de traitement par page inférieur à 400 millisecondes.
L’accélération repose principalement sur la réduction des appels GPU inutiles.
Firecrawl a également publié en open source la bibliothèque Rust pdf-inspector, qui permet de classer chaque page PDF en millisecondes : les pages en texte brut sont extraites directement sans utiliser le GPU ; seules les pages contenant des scans ou des images denses sont envoyées au modèle de mise en page basé sur un réseau neuronal et au modèle de langage visuel GLM-OCR pour traitement.
Prenons l’exemple d’un rapport financier de 150 pages de texte et 60 pages de scans, la plupart des pages n’ont pas besoin du GPU.
En termes de précision, Fire-PDF ajuste ses paramètres selon le type de contenu : les tableaux bénéficient d’un quota de tokens plus élevé et d’un délai maximal de 25 secondes pour la génération, les formules sont conservées en LaTeX, et la lecture en colonnes multiples est prédite par un réseau neuronal.
Fire-PDF est automatiquement activé pour tous les utilisateurs de Firecrawl, sans configuration requise.
(Source : BlockBeats)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler