ME News ニュース、2023年4月15日(UTC+8)、1M AI Newsの監視によると、ウェブデータ抽出ツールFirecrawlはFire-PDFをリリースしました。これはRustで書き直されたPDF解析エンジンであり、PDFを構造化されたMarkdownに変換する速度を前世代の3.5倍から5.7倍に向上させ、平均ページ処理時間は400ミリ秒未満です。
高速化の核心は不要なGPU呼び出しを減らすことにあります。FirecrawlはRustライブラリのpdf-inspectorもオープンソース化し、ミリ秒単位で各ページのPDFを分類できます:純テキストページは直接ネイティブ抽出し、GPUをスキップ;スキャンや画像が多いページのみニューラルネットワークのレイアウトモデルとGLM-OCRビジュアルランゲージモデルに送ります。
150ページのテキストと60ページのスキャンを含む財務報告書の例では、大部分のページはGPUを必要としません。
精度面では、Fire-PDFは異なる内容タイプに対してパラメータを設定しています:表はより高いトークン制限と最大25秒の生成時間を獲得し、数式はLaTeXで保持、複数列レイアウトはニューラルネットワークで読書順を予測します。
Fire-PDFはすべてのFirecrawlユーザーに自動的に有効化されており、設定は不要です。
(出典:BlockBeats)
FirecrawlはRustでPDF解析エンジンを書き直し、速度をこれまでの5.7倍に向上させました
ME News ニュース、2023年4月15日(UTC+8)、1M AI Newsの監視によると、ウェブデータ抽出ツールFirecrawlはFire-PDFをリリースしました。これはRustで書き直されたPDF解析エンジンであり、PDFを構造化されたMarkdownに変換する速度を前世代の3.5倍から5.7倍に向上させ、平均ページ処理時間は400ミリ秒未満です。
高速化の核心は不要なGPU呼び出しを減らすことにあります。FirecrawlはRustライブラリのpdf-inspectorもオープンソース化し、ミリ秒単位で各ページのPDFを分類できます:純テキストページは直接ネイティブ抽出し、GPUをスキップ;スキャンや画像が多いページのみニューラルネットワークのレイアウトモデルとGLM-OCRビジュアルランゲージモデルに送ります。
150ページのテキストと60ページのスキャンを含む財務報告書の例では、大部分のページはGPUを必要としません。
精度面では、Fire-PDFは異なる内容タイプに対してパラメータを設定しています:表はより高いトークン制限と最大25秒の生成時間を獲得し、数式はLaTeXで保持、複数列レイアウトはニューラルネットワークで読書順を予測します。
Fire-PDFはすべてのFirecrawlユーザーに自動的に有効化されており、設定は不要です。
(出典:BlockBeats)