Google Vision Banana: O "Momento GPT-3" da Visão Computacional? Modelo de geração de imagens derrota modelo dedicado de compreensão visual.

ME News informa que, em 23 de abril (UTC+8), segundo monitoramento do 动察 Beating, a equipe do Google (incluindo autores como He Kaiming e Xie Saining) publicou um artigo propondo o Vision Banana, realizando um ajuste fino leve de instruções em seu próprio modelo de geração de imagens Nano Banana Pro (ou seja, Gemini 3 Pro Image), transformando-o em um modelo de compreensão visual geral. A abordagem principal é parametrizar a saída de todas as tarefas visuais como imagens RGB, permitindo que tarefas perceptivas como segmentação, estimativa de profundidade e estimativa de normais de superfície sejam realizadas por meio da geração de imagens, sem a necessidade de projetar arquiteturas ou funções de perda específicas para cada tipo de tarefa. A avaliação cobriu duas grandes categorias de tarefas: segmentação de imagem e inferência geométrica 3D. Em segmentação, a segmentação semântica (rotulando cada pixel da imagem com categorias, como "pista", "pedestre", "veículo") superou o modelo de segmentação especializado SAM 3 em 4,7 pontos percentuais no Cityscapes; a segmentação por expressão referente (encontrar e segmentar objetos correspondentes com base em descrições em linguagem natural, como "o cachorro de chapéu à esquerda") também superou o SAM 3 Agent. No entanto, na segmentação de instâncias (distinguir diferentes indivíduos da mesma categoria, como identificar separadamente cinco cães na imagem) ainda fica atrás do SAM 3. Em 3D, a estimativa de profundidade métrica (calcular a distância física real de cada pixel até a câmera a partir de uma única foto) alcançou uma precisão média de 0,929 em quatro datasets padrão, superior ao 0,918 do modelo especializado Depth Anything V3, e foi treinada inteiramente com dados sintéticos, sem usar dados reais de profundidade, e não requer parâmetros de câmera durante a inferência. A estimativa de normais de superfície (inferir a orientação da superfície do objeto) obteve os melhores resultados em três benchmarks internos. O ajuste fino apenas misturou uma pequena quantidade de dados de tarefas visuais nos dados de treinamento original de geração de imagens, e a capacidade de geração de imagens do modelo permanece praticamente inalterada: na avaliação de qualidade de geração, empatou com o Nano Banana Pro original. O artigo argumenta que o papel do pré-treinamento de geração de imagens no campo visual é semelhante ao do pré-treinamento de geração de texto no campo da linguagem: o modelo, ao aprender a gerar imagens, já adquiriu as representações internas necessárias para compreender imagens, e o ajuste fino de instruções apenas as libera. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários