传前DeepSeek核心成员主导,百度开源3B文档解析模型Unlimited OCR

robot
摘要生成中
ME AI 消息,据 动察 Beating 监测,百度开源文档智能解析大模型 Unlimited-OCR 并发布技术报告。报告署名显示,项目技术总监为化名「YY」的神秘成员。业内广泛猜测,「YY」的真实身份为前 DeepSeek-OCR 核心作者魏浩然。Unlimited-OCR 模型也正是基于 DeepSeek-OCR 底座构建而成。 Unlimited-OCR 在长文档解析基准测试 OmniDocBench v1.6 中取得 93.92% 的得分,刷新端到端 SOTA 纪录。传统的文档解析大模型在处理多页长文本时,往往因为键值缓存 KV cache 的线性暴涨,导致运行速度大幅变慢并消耗极多显存。 为了解决变慢的难题,百度引入参考滑动窗口注意力机制 R-SWA。在解码生成文本时,模型仅关注所有图像特征与近期固定窗口(默认 128 个 Token)的已生成文本,从而将 KV cache 总体积上限锁定为常数。R-SWA 既避免了图像细节随窗口淘汰而模糊,又保证了推理速度与显存消耗在解析长达 40 页以上的文档时保持恒定,测试中较 DeepSeek-OCR 提速 12.7%。 目前,百度已采用 MIT 协议开源 Unlimited-OCR 的代码与权重,支持 Hugging Face Transformers、vLLM、SGLang 等主流引擎,其中 SGLang 已支持针对 R-SWA 的缓存优化。未来团队计划将参考滑动窗口注意力推广至语音识别 ASR 和翻译等其他参考型任务中。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论