Firecrawl réécrit le moteur d'analyse PDF en Rust, la vitesse maximale est augmentée jusqu'à 5,7 fois par rapport à avant

robot
Création du résumé en cours

ME News Actualités, le 15 avril (UTC+8), selon la surveillance de 1M AI News, l’outil d’extraction de données web Firecrawl a publié Fire-PDF, un moteur d’analyse PDF réécrit en Rust, qui porte la vitesse de conversion de PDF en Markdown structuré à 3,5 à 5,7 fois celle de la génération précédente, avec un temps moyen de traitement par page inférieur à 400 millisecondes.
L’accélération principale réside dans la réduction des appels GPU inutiles.
Firecrawl a également open-sourcé la bibliothèque Rust pdf-inspector, qui peut classer chaque page PDF en millisecondes : les pages de texte pur sont extraites directement en natif, en sautant le GPU ; seules les pages contenant des scans ou beaucoup d’images sont envoyées au modèle de mise en page neuronal et au modèle de langage visuel GLM-OCR pour traitement.
Prenons l’exemple d’un rapport financier de 150 pages de texte et 60 pages de scans, la plupart des pages n’ont pas besoin du GPU.
En termes de précision, Fire-PDF ajuste ses paramètres selon le type de contenu : les tableaux bénéficient d’un quota de tokens plus élevé et d’un délai maximum de 25 secondes pour la génération, les formules sont conservées en LaTeX, et la lecture en colonnes multiples est prédite par un réseau neuronal.
Fire-PDF est automatiquement activé pour tous les utilisateurs de Firecrawl, sans configuration requise.
(Source : BlockBeats)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler