Liderado pelos membros principais do DeepSeek anterior, Baidu lança o modelo de análise de documentos 3B de código aberto Unlimited OCR

robot
Geração do resumo em andamento
ME AI Mensagem, de acordo com o monitoramento de Beating, a documentação de código aberto da Baidu para o grande modelo de análise inteligente de documentos Unlimited-OCR foi lançada juntamente com um relatório técnico. O relatório mostra que o diretor técnico do projeto é um membro misterioso com pseudônimo "YY". Especula-se amplamente na indústria que a verdadeira identidade de "YY" é Wei Haoran, um dos autores principais do DeepSeek-OCR. O modelo Unlimited-OCR também foi construído com base na plataforma DeepSeek-OCR. O Unlimited-OCR obteve uma pontuação de 93,92% na avaliação de referência de análise de documentos longos OmniDocBench v1.6, atingindo um novo recorde de ponta a ponta (SOTA).
Modelos tradicionais de análise de documentos geralmente ficam muito lentos e consomem muita memória de vídeo ao processar textos longos de várias páginas, devido ao crescimento linear do cache de chaves e valores (KV cache).
Para resolver esse problema de lentidão, a Baidu introduziu o mecanismo de atenção de janela deslizante de referência R-SWA. Durante a geração de texto decodificado, o modelo foca apenas nas características de todas as imagens e no texto gerado recentemente dentro de uma janela fixa (padrão de 128 tokens), limitando o volume total do KV cache a um valor constante.
O R-SWA evita que os detalhes das imagens fiquem borrados à medida que a janela elimina informações antigas, além de garantir que a velocidade de inferência e o consumo de memória permaneçam constantes ao analisar documentos com mais de 40 páginas, com uma aceleração de 12,7% em relação ao DeepSeek-OCR durante os testes.
Atualmente, a Baidu lançou o código e os pesos do Unlimited-OCR sob a licença MIT, suportando os principais motores como Hugging Face Transformers, vLLM, SGLang, entre outros, sendo que o SGLang já suporta otimizações de cache específicas para o R-SWA.
No futuro, a equipe planeja estender a atenção de janela deslizante de referência para tarefas de reconhecimento de fala (ASR) e tradução, entre outras tarefas de referência.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado