Firecrawl用Rust重写PDF解析引擎,速度最高提至此前5.7倍

ME News 消息,4 月 15 日(UTC+8),据 1M AI News 监测,网页数据提取工具 Firecrawl 发布 Fire-PDF,用 Rust 重写的 PDF 解析引擎,将 PDF 转为结构化 Markdown 的速度提至上一代的 3.5 至 5.7 倍,平均每页处理时间低于 400 毫秒。 提速核心在于减少不必要的 GPU 调用。Firecrawl 同步开源了 Rust 库 pdf-inspector,可在毫秒级对每页 PDF 进行分类:纯文本页直接原生提取,跳过 GPU;只有扫描件或图片密集的页面才送入神经网络布局模型和 GLM-OCR 视觉语言模型处理。以一份 150 页文本加 60 页扫描件的财报为例,大部分页面无需 GPU。 准确度方面,Fire-PDF 对不同内容类型分别设参:表格获得更高 token 限额和最多 25 秒生成时间,公式以 LaTeX 保留,多栏布局通过神经网络预测阅读顺序。Fire-PDF 已对所有 Firecrawl 用户自动生效,无需配置。 (来源:BlockBeats)

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论