Google Vision Banana: «Момент GPT-3» комп'ютерного зору? Модель генерації зображень перемагає спеціалізовану модель візуального розуміння.

Question

ME News повідомляє, 23 квітня (UTC+8), за даними моніторингу Beating, команда Google (автори включають Хе Кайміна, Сє Сайніна та ін.) опублікувала статтю, запропонувавши Vision Banana, виконавши легке налаштування інструкцій на власній моделі генерації зображень Nano Banana Pro (тобто Gemini 3 Pro Image), перетворивши її на універсальну модель візуального розуміння.
Основна ідея полягає в уніфікації виходів усіх візуальних завдань у вигляді RGB-зображень, що дозволяє виконувати завдання сприйняття, такі як сегментація, оцінка глибини, оцінка нормалей поверхні, за допомогою генерації зображень, без необхідності розробляти спеціалізовану архітектуру або функцію втрат для кожного типу завдань.
Оцінка охопила дві основні категорії завдань: сегментацію зображень та 3D-геометричне виведення. У сегментації: семантична сегментація (присвоєння категорії кожному пікселю, наприклад «дорога», «пішохід», «транспортний засіб») перевершила спеціалізовану модель сегментації SAM 3 на 4,7 відсоткових пункти на Cityscapes; сегментація за описом (пошук та сегментація об'єкта за природномовним описом, наприклад «собака в капелюсі ліворуч») також перевершила SAM 3 Agent. Однак у сегментації екземплярів (розрізнення окремих об'єктів одного класу, наприклад позначення п'яти собак на зображенні) все ще відстає від SAM 3.
У 3D: метрична оцінка глибини (визначення фактичної фізичної відстані від кожного пікселя до камери за одним знімком) досягла середньої точності 0,929 на чотирьох стандартних наборах даних, що вище за 0,918 у спеціалізованої моделі Depth Anything V3, і повністю навчалася на синтетичних даних без використання реальних даних глибини, а під час виведення не потребує параметрів камери. Оцінка нормалей поверхні (визначення орієнтації поверхні об'єкта) досягла найкращих результатів на трьох внутрішніх еталонах.
Тонке налаштування лише змішує невелику кількість даних візуальних завдань з оригінальними даними навчання генерації зображень, і здатність моделі до генерації зображень практично не постраждала: за оцінками якості генерації вона зрівнялася з оригінальною Nano Banana Pro.
У статті стверджується, що роль попереднього навчання генерації зображень у візуальній області подібна до ролі попереднього навчання генерації тексту в мовній області: під час навчання генерації зображень модель вже набула внутрішніх представлень, необхідних для розуміння зображень, а тонке налаштування інструкцій лише вивільняє їх.
(Джерело: BlockBeats)

Google Vision Banana: «Момент GPT-3» комп'ютерного зору? Модель генерації зображень перемагає спеціалізовану модель візуального розуміння.

Популярні теми

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Закріплено