FirecrawlはRustでPDF解析エンジンを書き直し、速度をこれまでの5.7倍に向上させました

robot
概要作成中

ME News ニュース、4 月 15 日(UTC+8)、1M AI News の監視によると、ウェブデータ抽出ツール Firecrawl は Fire-PDF をリリースし、Rust で書き直した PDF 解析エンジンは PDF を構造化された Markdown に変換する速度を前世代の 3.5 倍から 5.7 倍に向上させ、平均ページ処理時間は 400 ミリ秒未満となった。 速度向上の核心は不要な GPU 呼び出しの削減にある。Firecrawl は Rust ライブラリ pdf-inspector をオープンソース化し、ミリ秒単位で各ページの PDF を分類できる:純テキストページは直接ネイティブ抽出し、GPU をスキップ;スキャンや画像が密集したページのみ神経ネットワークのレイアウトモデルと GLM-OCR のビジュアル言語モデルに送る。150 ページのテキストと 60 ページのスキャンを含む財務報告書の例では、大部分のページは GPU を必要としない。 精度面では、Fire-PDF は異なる内容タイプに対してパラメータを設定:表はより高いトークン制限と最大 25 秒の生成時間を獲得し、数式は LaTeX で保持、多段レイアウトは神経ネットワークの予測による読書順を採用している。Fire-PDF はすべての Firecrawl ユーザーに自動的に有効化され、設定は不要だ。 (出典:BlockBeats)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン