Firecrawl menulis ulang mesin analisis PDF menggunakan Rust, kecepatan tertinggi meningkat hingga 5,7 kali lipat dari sebelumnya

ME News Berita, 15 April (UTC+8), menurut pemantauan 1M AI News, alat ekstraksi data web Firecrawl merilis Fire-PDF, mesin analisis PDF yang ditulis ulang menggunakan Rust, meningkatkan kecepatan konversi PDF ke Markdown terstruktur menjadi 3,5 hingga 5,7 kali lipat dari generasi sebelumnya, dengan waktu pemrosesan rata-rata per halaman di bawah 400 milidetik.
Inti peningkatan kecepatan terletak pada pengurangan panggilan GPU yang tidak perlu.
Firecrawl secara bersamaan merilis pustaka Rust pdf-inspector yang dapat mengklasifikasikan setiap halaman PDF dalam hitungan milidetik: halaman teks murni diekstraksi secara asli langsung, melewati GPU; hanya halaman yang merupakan scan atau penuh gambar yang dikirim ke model tata letak jaringan saraf dan model bahasa visual GLM-OCR untuk diproses.
Sebagai contoh, laporan keuangan berisi 150 halaman teks dan 60 halaman scan, sebagian besar halaman tidak memerlukan GPU.
Dalam hal akurasi, Fire-PDF menetapkan parameter berbeda untuk berbagai jenis konten: tabel mendapatkan batas token lebih tinggi dan waktu pembuatan maksimal 25 detik, rumus disimpan dalam LaTeX, tata letak multi-kolom diprediksi menggunakan jaringan saraf untuk membaca urutan.
Fire-PDF secara otomatis berlaku untuk semua pengguna Firecrawl tanpa konfigurasi tambahan.
(Sumber: BlockBeats)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan