По данным мониторинга Beating, веб-версия и приложение DeepSeek официально запустили режим распознавания изображений (Vision Mode), который расположен над полем ввода диалога и идет параллельно с быстрым режимом и режимом эксперта.
Новые возможности визуального понимания не ограничиваются простым распознаванием текста (OCR), а сосредоточены на глубоком анализе сцен, пространственной логике и преобразовании скриншотов интерфейса в структурированный HTML-код.
Для сложных геометрических выводов или анализа сложных графиков система автоматически активирует модель глубокого мышления, предоставляя полную цепочку рассуждений.

Базовая основа режима распознавания изображений основана на исследовательской рамке «Мышление с помощью визуальных примитивов» (Thinking with Visual Primitives), опубликованной командой DeepSeek.
Статья, совместно подготовленная исследователем мультимодальных моделей Xiaokang Chen и университетами Пекинского и Цинхуа, указывает, что существующие визуально-языковые модели сталкиваются с «дефектом указания» (Reference Gap) в точной локализации и пространственном рассуждении, то есть им трудно использовать размытые естественные языки для описания сложных визуальных координат.
Для этого команда исследователей повысила значимость координатных точек и рамок (Bounding Boxes) как минимальных единиц мышления, вставляя пространственные примитивы прямо в цепочку рассуждений модели (CoT), что позволяет синхронизировать пространственные указания в процессе мышления.

Научные статьи и открытые проекты, лежащие в основе визуальных возможностей, были кратко опубликованы 30 апреля, но затем без предупреждения удалены официальным представителем DeepSeek 1 мая, что вызвало в отрасли множество спекуляций о чрезмерной утечке технических деталей и последующей оптимизации модели.
Официальный запуск режима распознавания изображений поддерживает только ввод изображений, временно не поддерживает мультимодальные форматы, такие как видео и аудио, а также в настоящее время не обладает возможностью генерации изображений.

DEEPSEEK0,95%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
MyGateTradeStory
779,17K Популярность
#
WarshDebutsAsFedHoldsRatesSteady
1,41M Популярность
#
IsraelStrikesIranBTCPlunges
58,78K Популярность
#
PredictWorldCup🇺🇸vs🇵🇾
868,47K Популярность
#
TradFiCFDGoldMaster
995,7K Популярность

Закреплено

Карта сайта

DeepSeek запустил режим распознавания изображений, основанный на исходной структуре отмены, поддерживающей визуальный CoT-вывод.

Популярные темы

MyGateTradeStory

WarshDebutsAsFedHoldsRatesSteady

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

Закреплено