Firecrawl reescreve o motor de análise de PDF em Rust, aumentando a velocidade até 5,7 vezes superior ao anterior

robot
Geração de resumo em curso

ME News Notícias, 15 de abril (UTC+8), de acordo com a monitorização da 1M AI News, a ferramenta de extração de dados web Firecrawl lançou o Fire-PDF, um motor de análise de PDF reescrito em Rust, que converte PDFs em Markdown estruturado a uma velocidade de 3,5 a 5,7 vezes superior à geração anterior, com um tempo médio de processamento por página inferior a 400 milissegundos.
A aceleração centra-se na redução de chamadas desnecessárias à GPU.
O Firecrawl também lançou em código aberto a biblioteca Rust pdf-inspector, que classifica cada página de PDF em milissegundos: páginas de texto puro são extraídas diretamente na sua forma nativa, ignorando a GPU; apenas páginas escaneadas ou com muitas imagens são enviadas para o modelo de layout neural e o modelo de linguagem visual GLM-OCR.
Por exemplo, num relatório financeiro com 150 páginas de texto e 60 páginas de escaneados, a maioria das páginas não necessita de GPU.
No que diz respeito à precisão, o Fire-PDF ajusta os parâmetros consoante o tipo de conteúdo: tabelas recebem limites de tokens mais elevados e um tempo máximo de 25 segundos para geração, fórmulas são preservadas em LaTeX, e o layout de várias colunas é previsto por redes neurais para determinar a ordem de leitura.
O Fire-PDF já está ativo automaticamente para todos os utilizadores do Firecrawl, sem necessidade de configuração.
(Origem: BlockBeats)

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar