Google Vision Banana: момент GPT-3 в компьютерном зрении? Модель на основе исходных изображений превосходит специализированные модели понимания визуальных данных

Question

Согласно мониторингу Beating, команда Google (включая Хэ Кайминя, Ся Сайнин и других) опубликовала статью, в которой предложила Vision Banana, — легкое дообучение на основе команд для собственной модели генерации изображений Nano Banana Pro (то есть Gemini 3 Pro Image), превращающее её в универсальную модель визуального понимания. Основной подход заключается в унификации всех визуальных задач через параметризацию их вывода в виде RGB-изображений, что позволяет выполнять задачи сегментации, оценки глубины, определения нормалей поверхности и другие восприятия посредством генерации изображений, без необходимости разрабатывать отдельные архитектуры или функции потерь для каждой задачи.

Оценка охватывает две основные категории задач: сегментацию изображений и 3D-геометрическое восстановление. В сегментации, семантическая сегментация (обозначение каждого пикселя изображения с его классом, например «проезжая часть», «пешеход», «автомобиль») на Cityscapes превосходит специализированную модель сегментации SAM на 4.7 процентных пункта; выражение сегментации по команде (по естественному языковому описанию находить и сегментировать соответствующий объект, например «собака в шляпе слева») также превосходит SAM 3 Agent. Но в задачах экземплярной сегментации (разделение разных объектов одного класса, например выделение пяти собак на изображении) модель всё ещё уступает SAM 3. В области 3D, метрика оценки глубины (предсказание реального физического расстояния от каждого пикселя до камеры по одному изображению) достигает в среднем точности 0.929 по четырём стандартным наборам данных, что выше специализированной модели Depth Anything V3 с показателем 0.918, причём модель обучена полностью на синтетических данных без использования реальных данных о глубине и при этом не требует параметров камеры при выводе. Оценка нормалей поверхности (определение ориентации поверхности объектов) достигла лучших результатов на трёх внутренних бенчмарках.

Дообучение заключается в добавлении небольшого количества данных по визуальным задачам в исходные данные для обучения генерации изображений, при этом способность модели к генерации изображений практически не страдает: в оценке качества генерации она сравнима с оригинальной Nano Banana Pro. В статье считают, что роль предварительной тренировки модели на генерацию изображений в области визуальных задач аналогична роли предварительной тренировки на генерацию текста в языковой сфере: по мере обучения генерации изображений модель усваивает внутренние представления, необходимые для понимания изображений, а дообучение по командам — лишь способ их активировать.

Google Vision Banana: момент GPT-3 в компьютерном зрении? Модель на основе исходных изображений превосходит специализированные модели понимания визуальных данных

Популярные темы

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Закрепить