Google Vision Banana: «Момент GPT-3» компьютерного зрения? Модели генерации изображений побеждают специализированные модели понимания визуальной информации.

ME News сообщение, 23 апреля (UTC+8), по данным мониторинга Dongcha Beating, команда Google (авторы включают Хэ Каймин, Се Сайнин и др.) опубликовала статью, предложив Vision Banana, выполнив легкую тонкую настройку инструкций на собственной модели генерации изображений Nano Banana Pro (то есть Gemini 3 Pro Image), преобразовав ее в универсальную модель понимания изображений. Основной подход заключается в унификации параметризации вывода всех задач зрения в виде RGB-изображений, позволяя задачам восприятия, таким как сегментация, оценка глубины и оценка нормалей поверхности, выполняться через генерацию изображений, без необходимости проектировать специальные архитектуры или функции потерь для каждого типа задач. Оценка охватила два основных класса задач: сегментацию изображений и 3D-геометрическое восприятие. В плане сегментации семантическая сегментация (маркировка каждого пикселя на изображении категорией, например, «дорога», «пешеход», «транспортное средство») на Cityscapes превзошла специализированную модель сегментации SAM 3 на 4,7 процентных пункта; сегментация по референсным выражениям (поиск и сегментация соответствующего объекта по описанию на естественном языке, например, «собака в шапке слева») также превзошла SAM 3 Agent. Однако в сегментации экземпляров (различение отдельных объектов одного класса, например, отдельное обозначение пяти собак на изображении) она все еще отстает от SAM 3. В 3D-аспекте метрическая оценка глубины (вычисление фактического физического расстояния от каждого пикселя до камеры по одному снимку) на четырех стандартных наборах данных показала среднюю точность 0,929, что выше, чем 0,918 у специализированной модели Depth Anything V3, и при этом полностью обучалась на синтетических данных, без использования реальных данных глубины, а также не требует параметров камеры при инференсе. Оценка нормалей поверхности (определение ориентации поверхности объектов) достигла наилучших результатов на трех внутренних эталонах. Тонкая настройка заключалась лишь в смешивании небольшого количества данных задач зрения с исходными данными обучения генерации изображений, и способность модели к генерации изображений практически не пострадала: в оценке качества генерации она сравнялась с исходной Nano Banana Pro. В статье утверждается, что роль предварительного обучения генерации изображений в области зрения аналогична роли предварительного обучения генерации текста в языковой области: в процессе обучения генерации изображений модель уже приобрела внутренние представления, необходимые для понимания изображений, а тонкая настройка инструкций лишь высвобождает их. (Источник: BlockBeats)
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено