DeepSeek上线识图模式,基于撤回的原语框架支持视觉CoT推理

robot
摘要生成中
据动察 Beating 监测,DeepSeek 网页端和 App 端正式上线识图模式 (Vision Mode),在对话输入框上方与快速模式、专家模式并列提供。新上线的视觉理解能力并非简单的文字识别 (OCR),而是主打深度场景分析、空间逻辑推理以及将 UI 界面截图直接转化为 HTML 结构化代码。对于高难度的几何推导或复杂图表分析,系统会自动激活深度思考模型,提供完整的推理链条。

识图模式底层基于 DeepSeek 团队公布的「以视觉原语思考 (Thinking with Visual Primitives)」研究框架。多模态研究员 Xiaokang Chen 与北京大学、清华大学联合发表的论文指出,现有视觉语言模型在精细定位和空间推理中存在「指称缺陷」 (Reference Gap),即难以用模糊的自然语言描述复杂的视觉坐标。为此,研究团队将坐标点与边界框 (Bounding Boxes) 提升为最小思维单位,在模型进行视觉推理的思维链 (CoT) 中直接插入空间原语,实现了在思考过程中同步进行空间指向。

作为视觉能力基础的学术论文与开源项目曾于 4 月 30 日短暂放出,但随即被 DeepSeek 官方于 5 月 1 日无预警撤回,引发了行业关于技术细节过度泄露以及模型后续优化的诸多猜测。正式上线的识图模式仅支持图像输入,暂不支持视频、音频等多模态格式,且模型目前不具备图像生成能力。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论