Firecrawl переписан на Rust для движка парсинга PDF, скорость увеличена до 5.7 раз по сравнению с предыдущими версиями

robot
Генерация тезисов в процессе

ME News Новости, 15 апреля (UTC+8), согласно мониторингу 1M AI News, инструмент для извлечения данных с веб-страниц Firecrawl выпустил Fire-PDF, движок для анализа PDF, переписанный на Rust, который увеличил скорость преобразования PDF в структурированный Markdown до 3,5–5,7 раз по сравнению с предыдущим поколением, при этом среднее время обработки страницы составляет менее 400 миллисекунд.
Основная причина ускорения — сокращение ненужных вызовов GPU.
Firecrawl одновременно открыл исходный код Rust-библиотеки pdf-inspector, которая позволяет классифицировать каждую страницу PDF за миллисекунды: страницы с чистым текстом извлекаются напрямую без использования GPU; только страницы с сканами или насыщенные изображениями отправляются в модель нейронной сети для определения макета и в модель GLM-OCR для обработки визуального языка.
На примере финансового отчета объемом 150 страниц текста и 60 страниц сканов, большая часть страниц не требует GPU.
Что касается точности, Fire-PDF устанавливает параметры для разных типов содержимого: таблицы получают более высокий лимит токенов и максимум 25 секунд на генерацию, формулы сохраняются в LaTeX, многостолбцовые макеты прогнозируются нейронной сетью для определения порядка чтения.
Fire-PDF автоматически активирован для всех пользователей Firecrawl без необходимости настройки.
(Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить