Firecrawl переписано на Rust для движка аналізу PDF, швидкість підвищена до 5.7 разів порівняно з попередніми версіями

robot
Генерація анотацій у процесі

ME News Новини, 15 квітня (UTC+8), за даними моніторингу 1M AI News, інструмент для вилучення даних з веб-сторінок Firecrawl випустив Fire-PDF, перероблений на Rust движок для аналізу PDF, який швидко перетворює PDF у структурований Markdown у 3.5 до 5.7 разів швидше за попереднє покоління, з середнім часом обробки сторінки менше 400 мілісекунд.
Ключовий фактор прискорення — зменшення непотрібних викликів GPU.
Firecrawl одночасно відкрив вихідний код бібліотеки Rust pdf-inspector, яка може класифікувати кожну сторінку PDF за мілісекунд: чистий текстовий лист безпосередньо витягується без GPU; лише сторінки з сканами або щільними зображеннями передаються на обробку нейронною мережею для розміщення та моделлю GLM-OCR для візуально-мовної обробки.
На прикладі фінансового звіту з 150 сторінками тексту та 60 сторінками сканів, більшість сторінок не потребують GPU.
Щодо точності, Fire-PDF налаштовує параметри для різних типів контенту: таблиці отримують вищий ліміт токенів і максимум 25 секунд на генерацію, формули зберігаються у LaTeX, багатоколонкові макети прогнозуються нейронною мережею для визначення порядку читання.
Fire-PDF автоматично активовано для всіх користувачів Firecrawl без необхідності налаштувань.
(Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити