Liderado por los miembros principales de DeepSeek, Baidu open source el modelo de análisis de documentos 3B Unlimited OCR

robot
Generación de resúmenes en curso
ME AI Mensajes, según la monitorización de Beating, Baidu ha abierto el modelo de análisis inteligente de documentos de código abierto Unlimited-OCR y ha publicado un informe técnico. La firma del informe indica que el director técnico del proyecto es un miembro misterioso con el alias «YY». Se especula ampliamente en la industria que la verdadera identidad de «YY» es Wei Haoran, uno de los autores principales de DeepSeek-OCR. El modelo Unlimited-OCR también está construido sobre la base de DeepSeek-OCR.
Unlimited-OCR obtuvo una puntuación del 93.92% en la prueba de referencia de análisis de documentos largos OmniDocBench v1.6, estableciendo un nuevo récord SOTA de extremo a extremo.
Los modelos tradicionales de análisis de documentos grandes, al procesar textos largos de varias páginas, a menudo experimentan una desaceleración significativa y un alto consumo de memoria debido a la explosión lineal del caché de claves y valores KV.
Para resolver el problema de la lentitud, Baidu introdujo el mecanismo de atención con ventana deslizante de referencia R-SWA.
Durante la generación de texto en decodificación, el modelo solo presta atención a todas las características de la imagen y al texto generado en una ventana fija cercana (por defecto 128 tokens), lo que limita el volumen total del caché KV a una constante.
R-SWA evita que los detalles de la imagen se vuelvan borrosos a medida que la ventana elimina información, y garantiza que la velocidad de inferencia y el consumo de memoria permanezcan constantes al analizar documentos de más de 40 páginas, con una mejora de velocidad del 12.7% en las pruebas en comparación con DeepSeek-OCR.
Actualmente, Baidu ha abierto el código y los pesos de Unlimited-OCR bajo la licencia MIT, soportando motores principales como Hugging Face Transformers, vLLM y SGLang, donde SGLang ya soporta la optimización de caché para R-SWA.
En el futuro, el equipo planea extender la atención con ventana deslizante de referencia a tareas adicionales como reconocimiento de voz (ASR) y traducción.
(Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado