DeepSeekが画像認識モードを開始、撤回された原語フレームワークに基づき視覚的CoT推論をサポート

robot
概要作成中

動察 Beating 監測によると、DeepSeek のウェブ版とアプリ版が正式にビジョンモード(Vision Mode)をリリースし、対話入力欄の上に高速モード、エキスパートモードと並んで提供されるようになった。新たに導入された視覚理解能力は単なる文字認識(OCR)ではなく、深度シーン分析、空間論理推論、そしてUI画面のスクリーンショットを直接HTML構造化コードに変換することを特徴としている。高度な幾何推論や複雑なグラフ分析においては、システムが自動的に深度思考モデルを起動し、完全な推論チェーンを提供する。

ビジョンモードの基盤は、DeepSeekチームが公開した「視覚原語で考える(Thinking with Visual Primitives)」研究フレームワークに基づいている。多モーダル研究者の陳小康(Xiaokang Chen)と北京大学、清華大学が共同で発表した論文は、既存の視覚言語モデルが精密な位置特定と空間推論において「指示ギャップ(Reference Gap)」を抱えていると指摘している。これは、曖昧な自然言語で複雑な視覚座標を記述することが難しいという問題だ。これに対し、研究チームは座標点と境界ボックス(Bounding Boxes)を最小の思考単位に昇格させ、モデルの視覚推論の思考チェーン(CoT)に空間原語を直接挿入し、思考過程と同時に空間指示を行えるようにした。

視覚能力の基礎となる学術論文とオープンソースプロジェクトは、4月30日に一時公開されたが、その後、DeepSeek公式によって5月1日に予告なしで撤回され、技術的詳細の過度な漏洩やモデルの今後の最適化に関する業界の憶測を呼んだ。正式にリリースされたビジョンモードは画像入力のみをサポートし、動画や音声などのマルチモーダルフォーマットには対応していない。また、現時点で画像生成能力は備えていない。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め