Firecrawl переписан на Rust для движка парсинга PDF, скорость увеличена до 5.7 раз по сравнению с предыдущими версиями

robot
Генерация тезисов в процессе

ME News Новости, 15 апреля (UTC+8), согласно мониторингу 1M AI News, инструмент для извлечения данных с веб-страниц Firecrawl выпустил Fire-PDF, движок для анализа PDF, переписанный на Rust, который ускорил преобразование PDF в структурированный Markdown в 3.5-5.7 раз по сравнению с предыдущим поколением, среднее время обработки страницы менее 400 миллисекунд. Основная причина ускорения — сокращение ненужных вызовов GPU. Firecrawl одновременно открыл исходный код библиотеки Rust pdf-inspector, которая позволяет классифицировать каждую страницу PDF за миллисекунды: страницы с чистым текстом извлекаются напрямую без использования GPU; только страницы с сканами или насыщенные изображениями отправляются в нейронную сеть для определения макета и модели GLM-OCR для обработки визуального языка. Например, в финансовом отчёте объемом 150 страниц текста и 60 страниц сканов большинство страниц не требуют GPU. В плане точности Fire-PDF использует разные параметры для различных типов контента: таблицы получают более высокий лимит токенов и максимум 25 секунд на генерацию, формулы сохраняются в LaTeX, многостолбцовые макеты прогнозируются нейронной сетью по порядку чтения. Fire-PDF автоматически активирован для всех пользователей Firecrawl без необходимости настройки. (Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить