DeepSeek запустил режим распознавания изображений, основанный на исходной структуре отмены, поддерживающей визуальный CoT-вывод.

robot
Генерация тезисов в процессе
По данным мониторинга Beating, веб-версия и приложение DeepSeek официально запустили режим распознавания изображений (Vision Mode), который расположен над полем ввода диалога и идет параллельно с быстрым режимом и режимом эксперта.
Новые возможности визуального понимания не ограничиваются простым распознаванием текста (OCR), а сосредоточены на глубоком анализе сцен, пространственной логике и преобразовании скриншотов интерфейса в структурированный HTML-код.
Для сложных геометрических выводов или анализа сложных графиков система автоматически активирует модель глубокого мышления, предоставляя полную цепочку рассуждений.

Базовая основа режима распознавания изображений основана на исследовательской рамке «Мышление с помощью визуальных примитивов» (Thinking with Visual Primitives), опубликованной командой DeepSeek.
Статья, совместно подготовленная исследователем мультимодальных моделей Xiaokang Chen и университетами Пекинского и Цинхуа, указывает, что существующие визуально-языковые модели сталкиваются с «дефектом указания» (Reference Gap) в точной локализации и пространственном рассуждении, то есть им трудно использовать размытые естественные языки для описания сложных визуальных координат.
Для этого команда исследователей повысила значимость координатных точек и рамок (Bounding Boxes) как минимальных единиц мышления, вставляя пространственные примитивы прямо в цепочку рассуждений модели (CoT), что позволяет синхронизировать пространственные указания в процессе мышления.

Научные статьи и открытые проекты, лежащие в основе визуальных возможностей, были кратко опубликованы 30 апреля, но затем без предупреждения удалены официальным представителем DeepSeek 1 мая, что вызвало в отрасли множество спекуляций о чрезмерной утечке технических деталей и последующей оптимизации модели.
Официальный запуск режима распознавания изображений поддерживает только ввод изображений, временно не поддерживает мультимодальные форматы, такие как видео и аудио, а также в настоящее время не обладает возможностью генерации изображений.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено