ME AI Mensagem, de acordo com a monitorização Beating, a documentação de código aberto da Baidu para o grande modelo de análise inteligente de documentos Unlimited-OCR foi lançada juntamente com um relatório técnico. A assinatura do relatório indica que o diretor técnico do projeto é um membro misterioso com pseudônimo «YY». Especulações amplas na indústria sugerem que a verdadeira identidade de «YY» é Wei Haoran, antigo autor principal do DeepSeek-OCR. O modelo Unlimited-OCR também foi construído com base na plataforma DeepSeek-OCR. O Unlimited-OCR obteve uma pontuação de 93,92% na avaliação de referência de análise de documentos longos OmniDocBench v1.6, atingindo um novo recorde de ponta a ponta (SOTA). Os grandes modelos tradicionais de análise de documentos, ao lidar com textos longos de várias páginas, frequentemente desaceleram significativamente devido ao crescimento linear do cache de chaves e valores (KV cache), consumindo muita memória de vídeo (VRAM). Para resolver o problema de lentidão, a Baidu introduziu o mecanismo de atenção de janela deslizante de referência R-SWA. Durante a geração de texto decodificado, o modelo foca apenas em todas as características de imagem e no texto gerado recentemente dentro de uma janela fixa (padrão de 128 tokens), limitando o volume total do KV cache a um valor constante. O R-SWA evita que detalhes de imagem se tornem borrados à medida que a janela elimina informações antigas, além de garantir que a velocidade de inferência e o consumo de VRAM permaneçam constantes ao analisar documentos com mais de 40 páginas, com uma aceleração de 12,7% em relação ao DeepSeek-OCR durante os testes. Atualmente, a Baidu lançou o código e os pesos do Unlimited-OCR sob a licença MIT, suportando os principais motores como Hugging Face Transformers, vLLM e SGLang, sendo que o SGLang já suporta otimizações de cache específicas para o R-SWA. No futuro, a equipe planeja estender a atenção de janela deslizante de referência para tarefas de reconhecimento de fala (ASR) e tradução, entre outras tarefas de referência. (Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
SKHynixTopsKOSPIByMarketCap
146,42K Popularidade
#
GateStocks7x24Trading
8,76M Popularidade
#
IsraelStrikesIranBTCPlunges
62,17K Popularidade
#
PredictWorldCup🇺🇸vs🇵🇾
910,06K Popularidade
#
TradFiCFDGoldMaster
2,09M Popularidade

Fixado

Liderado pelos membros principais do DeepSeek anterior, Baidu lança o modelo de análise de documentos 3B de código aberto Unlimited OCR

Tópicos em destaque

SKHynixTopsKOSPIByMarketCap

GateStocks7x24Trading

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

Fixado