DeepSeek внутрішній тест "режим розпізнавання зображень", багатомодальні можливості офіційно відкриті|ексклюзивно

robot
Генерація анотацій у процесі

Марс Фінанс повідомляє 29 квітня, що деякі користувачі повідомили про запуск веб-версії DeepSeek з режимом “розпізнавання зображень”. Виявлено, що цей режим підтримує завантаження користувачами зображень для розуміння та аналізу контенту. Наразі ця функція ще не доступна у повному обсязі, межі її можливостей ще не визначені. Варто зазначити, що саме сьогодні дослідник, відповідальний за багатомодальну розробку DeepSeek, Чень Сяокан, опублікував у платформі X повідомлення з зображенням “Now, we see you” та ілюстрацією, на якій фірмовий логотип DeepSeek — “кит” — зняв пов’язку з очей. На початку цього місяця DeepSeek запустив “швидкий режим” і “режим експерта”, перший підходить для щоденних діалогів з миттєвою відповіддю; другий — для складних питань, у пікові моменти потрібно чекати. Тоді ж у мережі з’явилися скріншоти, що показують, що крім “швидкого” та “експертного” режимів, у DeepSeek є ще один режим під назвою “vision”. Останній “режим розпізнавання зображень” дуже схожий на раніше поширений “vision” інтерфейс. Аналіз показує, що відкриття багатомодальних можливостей DeepSeek означає розширення його продуктового портфоліо від чисто текстових діалогів до взаємодії з зображеннями та текстом, наближаючись до провідних багатомодальних великих моделей, таких як GPT-4o, Gemini тощо. (Обзор широкого куту)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити