Firecrawl dùng Rust viết lại engine phân tích PDF, tốc độ cao nhất tăng gấp 5.7 lần so với trước

robot
Đang tạo bản tóm tắt

Tin tức ME News, ngày 15 tháng 4 (UTC+8), theo dõi của 1M AI News, công cụ trích xuất dữ liệu web Firecrawl đã phát hành Fire-PDF, một engine phân tích PDF được viết lại bằng Rust, giúp tốc độ chuyển đổi PDF thành Markdown có cấu trúc nhanh gấp 3.5 đến 5.7 lần so với thế hệ trước, trung bình mỗi trang xử lý dưới 400 mili giây.
Tốc độ tăng chủ yếu nhờ giảm thiểu các cuộc gọi GPU không cần thiết.
Firecrawl đồng bộ mã nguồn mở thư viện Rust pdf-inspector, có thể phân loại từng trang PDF trong vòng mili giây: trang chỉ chứa văn bản thuần túy được trích xuất nguyên bản, bỏ qua GPU; chỉ những trang scan hoặc nhiều hình ảnh mới gửi vào mô hình bố cục neural network và mô hình ngôn ngữ thị giác GLM-OCR để xử lý.
Lấy ví dụ từ một báo cáo tài chính gồm 150 trang văn bản cộng 60 trang scan, phần lớn các trang không cần GPU.
Về độ chính xác, Fire-PDF thiết lập tham số riêng cho các loại nội dung khác nhau: bảng được cấp token giới hạn cao hơn và thời gian tối đa 25 giây để tạo ra, công thức giữ nguyên dạng LaTeX, bố cục nhiều cột dựa trên dự đoán của neural network về thứ tự đọc.
Fire-PDF đã tự động áp dụng cho tất cả người dùng Firecrawl, không cần cấu hình.
(Nguồn: BlockBeats)

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim