Liderado pelos membros principais do DeepSeek anterior, Baidu lança o modelo de análise de documentos 3B de código aberto Unlimited OCR

robot
Geração de resumo em curso
ME AI Mensagem, de acordo com a monitorização Beating, a documentação de código aberto da Baidu para o grande modelo de análise inteligente de documentos Unlimited-OCR foi lançada juntamente com um relatório técnico. A assinatura do relatório indica que o diretor técnico do projeto é um membro misterioso com pseudônimo «YY». Especulações amplas na indústria sugerem que a verdadeira identidade de «YY» é Wei Haoran, antigo autor principal do DeepSeek-OCR. O modelo Unlimited-OCR também foi construído com base na plataforma DeepSeek-OCR. O Unlimited-OCR obteve uma pontuação de 93,92% na avaliação de referência de análise de documentos longos OmniDocBench v1.6, atingindo um novo recorde de ponta a ponta (SOTA). Os grandes modelos tradicionais de análise de documentos, ao lidar com textos longos de várias páginas, frequentemente desaceleram significativamente devido ao crescimento linear do cache de chaves e valores (KV cache), consumindo muita memória de vídeo (VRAM). Para resolver o problema de lentidão, a Baidu introduziu o mecanismo de atenção de janela deslizante de referência R-SWA. Durante a geração de texto decodificado, o modelo foca apenas em todas as características de imagem e no texto gerado recentemente dentro de uma janela fixa (padrão de 128 tokens), limitando o volume total do KV cache a um valor constante. O R-SWA evita que detalhes de imagem se tornem borrados à medida que a janela elimina informações antigas, além de garantir que a velocidade de inferência e o consumo de VRAM permaneçam constantes ao analisar documentos com mais de 40 páginas, com uma aceleração de 12,7% em relação ao DeepSeek-OCR durante os testes. Atualmente, a Baidu lançou o código e os pesos do Unlimited-OCR sob a licença MIT, suportando os principais motores como Hugging Face Transformers, vLLM e SGLang, sendo que o SGLang já suporta otimizações de cache específicas para o R-SWA. No futuro, a equipe planeja estender a atenção de janela deslizante de referência para tarefas de reconhecimento de fala (ASR) e tradução, entre outras tarefas de referência. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado