Згідно з моніторингом Beating, веб-версія та додаток DeepSeek офіційно запустили режим розпізнавання зображень (Vision Mode), який розміщено над полем для введення діалогу поруч із швидким режимом та режимом експерта. Новий режим візуального розуміння не є простим розпізнаванням тексту (OCR), а зосереджений на глибокому аналізі сцен, просторовому логічному висновку та безпосередньому перетворенні скріншотів інтерфейсу користувача у структурований HTML-код. Для складних геометричних обчислень або аналізу складних графіків система автоматично активує модель глибокого мислення, яка надає повний ланцюг логічних висновків.

Базовий рівень режиму розпізнавання зображень ґрунтується на дослідницькій рамці «Мислення з візуальними примітивами (Thinking with Visual Primitives)», опублікованій командою DeepSeek. Стаття, спільно написана дослідником мультимодальних систем Xiaokang Chen та університетами Пекіна і Цінхуа, вказує, що існуючі моделі візуальної мови мають «дефект посилань» (Reference Gap) у точному визначенні та просторовому висновку, тобто їм важко описати складні візуальні координати за допомогою нечіткої природної мови. З цією метою команда дослідження підвищила значення координатних точок і рамок (Bounding Boxes) до мінімальних одиниць мислення, вставляючи просторові примітиви безпосередньо у ланцюг мислення моделі (CoT), що дозволяє одночасно орієнтуватися у просторі під час роздумів.

Наукові статті та відкриті проєкти, що закладають основу візуальних можливостей, були коротко оприлюднені 30 квітня, але одразу ж були без попередження відкликані офіційним представництвом DeepSeek 1 травня, що спричинило багато припущень у галузі щодо надмірного розкриття технічних деталей та подальшої оптимізації моделі. Офіційний запуск режиму розпізнавання зображень підтримує лише введення зображень, тимчасово не підтримує мультимедійні формати, такі як відео та аудіо, і наразі модель не має здатності генерувати зображення.

DEEPSEEK0,95%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
MyGateTradeStory
779,17K Популярність
#
WarshDebutsAsFedHoldsRatesSteady
1,41M Популярність
#
IsraelStrikesIranBTCPlunges
58,78K Популярність
#
PredictWorldCup🇺🇸vs🇵🇾
868,47K Популярність
#
TradFiCFDGoldMaster
995,7K Популярність

Закріплено

карта сайту

DeepSeek запустив режим розпізнавання зображень, заснований на каркасі скасованих оригінальних команд, що підтримує візуальне CoT-розуміння

Популярні теми

MyGateTradeStory

WarshDebutsAsFedHoldsRatesSteady

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

Закріплено