Google Vision Banana: ¿El momento "GPT-3" de la visión por computadora? El modelo de generación de imágenes derrota al modelo de comprensión visual especializado.

ME News noticias, 23 de abril (UTC+8), según el monitoreo de Dongcha Beating, el equipo de Google (autores incluyen a He Kaiming, Xie Saining, etc.) publicó un artículo proponiendo Vision Banana, realizando un ajuste fino de instrucciones ligero en su propio modelo de generación de imágenes Nano Banana Pro (es decir, Gemini 3 Pro Image), transformándolo en un modelo de comprensión visual general. El enfoque principal es unificar la salida de todas las tareas visuales como imágenes RGB, permitiendo que tareas de percepción como segmentación, estimación de profundidad y estimación de normales de superficie se completen mediante la generación de imágenes, sin necesidad de diseñar arquitecturas específicas o funciones de pérdida para cada tipo de tarea. Las evaluaciones cubren dos grandes categorías: segmentación de imágenes e inferencia geométrica 3D. En segmentación, la segmentación semántica (etiquetar cada píxel en la imagen con una categoría, como "carretera", "peatón", "vehículo") supera al modelo de segmentación especializado SAM 3 en 4.7 puntos porcentuales en Cityscapes; la segmentación por expresión referencial (encontrar y segmentar el objeto correspondiente según una descripción en lenguaje natural, como "el perro con sombrero a la izquierda") también supera a SAM 3 Agent. Sin embargo, en la segmentación de instancias (distinguir individuos diferentes de la misma categoría, como marcar cinco perros en la imagen) todavía está por detrás de SAM 3. En 3D, la estimación de profundidad métrica (calcular la distancia física real de cada píxel a la cámara a partir de una sola foto) tiene una precisión promedio de 0.929 en cuatro conjuntos de datos estándar, superior al 0.918 del modelo especializado Depth Anything V3, y está entrenada completamente con datos sintéticos, sin usar datos de profundidad real, y no requiere parámetros de cámara durante la inferencia. La estimación de normales de superficie (inferir la orientación de la superficie del objeto) logra los mejores resultados en tres referencias interiores. El ajuste fino solo mezcla una pequeña cantidad de datos de tareas visuales en los datos de entrenamiento originales de generación de imágenes, y la capacidad de generación de imágenes del modelo apenas se ve afectada: en las evaluaciones de calidad de generación, empata con el Nano Banana Pro original. El artículo sostiene que el preentrenamiento en generación de imágenes en el campo visual desempeña un papel similar al del preentrenamiento en generación de texto en el campo del lenguaje: el modelo, al aprender a generar imágenes, ya ha adquirido las representaciones internas necesarias para comprender las imágenes, y el ajuste fino de instrucciones simplemente las libera. (Fuente: BlockBeats)
Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios