ME News ニュース、2023年4月15日(UTC+8)、1M AI News の監視によると、ウェブデータ抽出ツール Firecrawl は Fire-PDF をリリースしました。Rust で書き直された PDF 解析エンジンで、PDF を構造化された Markdown に変換する速度は前世代の 3.5 倍から 5.7 倍に向上し、平均ページ処理時間は 400 ミリ秒未満です。 高速化の核心は不要な GPU 呼び出しの削減にあります。Firecrawl は Rust ライブラリ pdf-inspector をオープンソース化し、ミリ秒単位で各ページの PDF を分類可能です:純テキストページは直接ネイティブ抽出し、GPU をスキップ;スキャンや画像が多いページのみ、ニューラルネットワークのレイアウトモデルと GLM-OCR ビジュアル言語モデルに送ります。 150ページのテキストと60ページのスキャンを含む財務報告書の例では、大部分のページは GPU を必要としません。 精度面では、Fire-PDF は異なる内容タイプに対してパラメータを設定しています:表はより高いトークン制限と最大 25 秒の生成時間を獲得し、数式は LaTeX で保持、複数列レイアウトはニューラルネットワークで読書順を予測します。 Fire-PDF はすべての Firecrawl ユーザーに自動的に適用され、設定は不要です。 (出典:BlockBeats)
FirecrawlはRustでPDF解析エンジンを書き直し、速度をこれまでの5.7倍に向上させました
ME News ニュース、2023年4月15日(UTC+8)、1M AI News の監視によると、ウェブデータ抽出ツール Firecrawl は Fire-PDF をリリースしました。Rust で書き直された PDF 解析エンジンで、PDF を構造化された Markdown に変換する速度は前世代の 3.5 倍から 5.7 倍に向上し、平均ページ処理時間は 400 ミリ秒未満です。
高速化の核心は不要な GPU 呼び出しの削減にあります。Firecrawl は Rust ライブラリ pdf-inspector をオープンソース化し、ミリ秒単位で各ページの PDF を分類可能です:純テキストページは直接ネイティブ抽出し、GPU をスキップ;スキャンや画像が多いページのみ、ニューラルネットワークのレイアウトモデルと GLM-OCR ビジュアル言語モデルに送ります。
150ページのテキストと60ページのスキャンを含む財務報告書の例では、大部分のページは GPU を必要としません。
精度面では、Fire-PDF は異なる内容タイプに対してパラメータを設定しています:表はより高いトークン制限と最大 25 秒の生成時間を獲得し、数式は LaTeX で保持、複数列レイアウトはニューラルネットワークで読書順を予測します。
Fire-PDF はすべての Firecrawl ユーザーに自動的に適用され、設定は不要です。
(出典:BlockBeats)