Google Vision Banana: O "Momento GPT-3" da Visão Computacional? Modelo de geração de imagens derrota modelo dedicado de compreensão visual.

Question

ME News informa que, em 23 de abril (UTC+8), segundo monitoramento do 动察 Beating, a equipe do Google (incluindo autores como He Kaiming e Xie Saining) publicou um artigo propondo o Vision Banana, realizando um ajuste fino leve de instruções em seu próprio modelo de geração de imagens Nano Banana Pro (ou seja, Gemini 3 Pro Image), transformando-o em um modelo de compreensão visual geral. A abordagem principal é parametrizar a saída de todas as tarefas visuais como imagens RGB, permitindo que tarefas perceptivas como segmentação, estimativa de profundidade e estimativa de normais de superfície sejam realizadas por meio da geração de imagens, sem a necessidade de projetar arquiteturas ou funções de perda específicas para cada tipo de tarefa. A avaliação cobriu duas grandes categorias de tarefas: segmentação de imagem e inferência geométrica 3D. Em segmentação, a segmentação semântica (rotulando cada pixel da imagem com categorias, como "pista", "pedestre", "veículo") superou o modelo de segmentação especializado SAM 3 em 4,7 pontos percentuais no Cityscapes; a segmentação por expressão referente (encontrar e segmentar objetos correspondentes com base em descrições em linguagem natural, como "o cachorro de chapéu à esquerda") também superou o SAM 3 Agent. No entanto, na segmentação de instâncias (distinguir diferentes indivíduos da mesma categoria, como identificar separadamente cinco cães na imagem) ainda fica atrás do SAM 3. Em 3D, a estimativa de profundidade métrica (calcular a distância física real de cada pixel até a câmera a partir de uma única foto) alcançou uma precisão média de 0,929 em quatro datasets padrão, superior ao 0,918 do modelo especializado Depth Anything V3, e foi treinada inteiramente com dados sintéticos, sem usar dados reais de profundidade, e não requer parâmetros de câmera durante a inferência. A estimativa de normais de superfície (inferir a orientação da superfície do objeto) obteve os melhores resultados em três benchmarks internos. O ajuste fino apenas misturou uma pequena quantidade de dados de tarefas visuais nos dados de treinamento original de geração de imagens, e a capacidade de geração de imagens do modelo permanece praticamente inalterada: na avaliação de qualidade de geração, empatou com o Nano Banana Pro original. O artigo argumenta que o papel do pré-treinamento de geração de imagens no campo visual é semelhante ao do pré-treinamento de geração de texto no campo da linguagem: o modelo, ao aprender a gerar imagens, já adquiriu as representações internas necessárias para compreender imagens, e o ajuste fino de instruções apenas as libera. (Fonte: BlockBeats)

Google Vision Banana: O "Momento GPT-3" da Visão Computacional? Modelo de geração de imagens derrota modelo dedicado de compreensão visual.

Tendências

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

WorldCup🏴󠁧󠁢󠁳󠁣󠁴󠁿vs🇧🇷

USMayPCEInflationRisesTo4.1%HighestIn3Years

Fixado