Firecrawl dùng Rust viết lại engine phân tích PDF, tốc độ cao nhất tăng gấp 5.7 lần so với trước

robot
Đang tạo bản tóm tắt

Tin tức ME News, ngày 15 tháng 4 (UTC+8), theo dõi của 1M AI News, công cụ trích xuất dữ liệu web Firecrawl đã phát hành Fire-PDF, một engine phân tích PDF viết lại bằng Rust, giúp tốc độ chuyển đổi PDF sang Markdown có cấu trúc nhanh hơn 3.5 đến 5.7 lần so với thế hệ trước, trung bình mỗi trang xử lý dưới 400 mili giây.
Tốc độ được cải thiện chủ yếu nhờ giảm thiểu các cuộc gọi GPU không cần thiết.
Firecrawl đồng bộ mã nguồn mở thư viện Rust pdf-inspector, có thể phân loại từng trang PDF trong vòng mili giây: trang chỉ chứa văn bản thuần túy được trích xuất nguyên bản, bỏ qua GPU; chỉ những trang scan hoặc có nhiều hình ảnh mới gửi vào mô hình bố cục neural network và mô hình ngôn ngữ thị giác GLM-OCR xử lý.
Lấy ví dụ một báo cáo tài chính gồm 150 trang văn bản cộng 60 trang scan, phần lớn các trang không cần GPU.
Về độ chính xác, Fire-PDF thiết lập tham số riêng cho các loại nội dung khác nhau: bảng biểu có giới hạn token cao hơn và thời gian tối đa 25 giây để tạo ra, công thức giữ nguyên LaTeX, bố cục nhiều cột dự đoán thứ tự đọc bằng neural network.
Fire-PDF đã tự động áp dụng cho tất cả người dùng Firecrawl, không cần cấu hình.
(Nguồn: BlockBeats)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim