Firecrawl reescreve o motor de análise de PDFs em Rust, aumentando a velocidade em até 5,7 vezes em relação ao anterior

ME News Notícias, 15 de abril (UTC+8), de acordo com a monitorização da 1M AI News, a ferramenta de extração de dados web Firecrawl lançou o Fire-PDF, um motor de análise de PDF reescrito em Rust, que converte PDFs em Markdown estruturado a uma velocidade de 3,5 a 5,7 vezes superior à geração anterior, com um tempo médio de processamento por página inferior a 400 milissegundos.
A aceleração centra-se na redução de chamadas desnecessárias à GPU.
A Firecrawl lançou simultaneamente a biblioteca Rust pdf-inspector de código aberto, que classifica cada página de PDF em milissegundos: páginas de texto puro são extraídas diretamente na sua forma nativa, ignorando a GPU; apenas páginas escaneadas ou com alta densidade de imagens são enviadas para o modelo de layout de rede neural e o modelo de linguagem visual GLM-OCR.
Por exemplo, num relatório financeiro com 150 páginas de texto e 60 páginas de escaneados, a maioria das páginas não necessita de GPU.
No que diz respeito à precisão, o Fire-PDF ajusta os parâmetros de acordo com diferentes tipos de conteúdo: tabelas recebem limites de tokens mais elevados e um tempo máximo de 25 segundos para geração, fórmulas são preservadas em LaTeX, e layouts de várias colunas são previstos por redes neurais para determinar a ordem de leitura.
O Fire-PDF já está automaticamente ativo para todos os utilizadores do Firecrawl, sem necessidade de configuração.
(Origem: BlockBeats)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar