DeepSeek запустив режим розпізнавання зображень, заснований на каркасі скасованих оригінальних команд, що підтримує візуальне CoT-розуміння

robot
Генерація анотацій у процесі

Згідно з моніторингом Beating, веб-версія та додаток DeepSeek офіційно запустили режим розпізнавання зображень (Vision Mode), який розміщено над полем для введення діалогу поруч із швидким режимом та режимом експерта. Новий режим візуального розуміння не є простим розпізнаванням тексту (OCR), а зосереджений на глибокому аналізі сцен, просторовому логічному висновку та безпосередньому перетворенні скріншотів інтерфейсу користувача у структурований HTML-код. Для складних геометричних обчислень або аналізу складних графіків система автоматично активує модель глибокого мислення, яка надає повний ланцюг логічних висновків.

Базовий рівень режиму розпізнавання зображень ґрунтується на дослідницькій рамці «Мислення з візуальними примітивами (Thinking with Visual Primitives)», опублікованій командою DeepSeek. Стаття, спільно написана дослідником мультимодальних систем Xiaokang Chen та університетами Пекіна і Цінхуа, вказує, що існуючі моделі візуальної мови мають «дефект посилань» (Reference Gap) у точному визначенні та просторовому висновку, тобто їм важко описати складні візуальні координати за допомогою нечіткої природної мови. З цією метою команда дослідження підвищила значення координатних точок і рамок (Bounding Boxes) до мінімальних одиниць мислення, вставляючи просторові примітиви безпосередньо у ланцюг мислення моделі (CoT), що дозволяє одночасно орієнтуватися у просторі під час роздумів.

Наукові статті та відкриті проєкти, що закладають основу візуальних можливостей, були коротко оприлюднені 30 квітня, але одразу ж були без попередження відкликані офіційним представництвом DeepSeek 1 травня, що спричинило багато припущень у галузі щодо надмірного розкриття технічних деталей та подальшої оптимізації моделі. Офіційний запуск режиму розпізнавання зображень підтримує лише введення зображень, тимчасово не підтримує мультимедійні формати, такі як відео та аудіо, і наразі модель не має здатності генерувати зображення.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено