📢 Gate 广场认证创作者招募中,入驻瓜分每月 $20,000 创作大奖!
📌 参与方式
站内创作者: 成功申请“创作者认证徽章”即可自动参与。
新入驻创作者: 需填写入驻表单申请 👉️ https://www.gate.com/questionnaire/7698
🎁 创作者福利
1️⃣ 首帖见面礼: 新入驻/回归创作者发首帖,即得 $50U 奖励!
2️⃣ 周度发帖奖: 完成周发帖任务,轻松瓜分 $10,000 奖池!
3️⃣ 月度创作奖: 赛道更多样,完成月度任务瓜分 $1,600 GT 奖池!
4️⃣ 专属推广任务:进入专属创作者社群,享专属推广任务和节日礼包!
让您的优质内容被更多人看到,携手共建高质量创作者社区!
活动细节:https://www.gate.com/announcements/article/51536
DeepSeek上线识图模式,基于撤回的原语框架支持视觉CoT推理
识图模式底层基于 DeepSeek 团队公布的「以视觉原语思考 (Thinking with Visual Primitives)」研究框架。多模态研究员 Xiaokang Chen 与北京大学、清华大学联合发表的论文指出,现有视觉语言模型在精细定位和空间推理中存在「指称缺陷」 (Reference Gap),即难以用模糊的自然语言描述复杂的视觉坐标。为此,研究团队将坐标点与边界框 (Bounding Boxes) 提升为最小思维单位,在模型进行视觉推理的思维链 (CoT) 中直接插入空间原语,实现了在思考过程中同步进行空间指向。
作为视觉能力基础的学术论文与开源项目曾于 4 月 30 日短暂放出,但随即被 DeepSeek 官方于 5 月 1 日无预警撤回,引发了行业关于技术细节过度泄露以及模型后续优化的诸多猜测。正式上线的识图模式仅支持图像输入,暂不支持视频、音频等多模态格式,且模型目前不具备图像生成能力。