Estándar de evaluación de código abierto + árbitro unificado, T2I finalmente tiene un sistema de puntuación que puede competir, la realismo y la creatividad siguen siendo una línea divisoria.

Ver original
BlockBeatNews
La evaluación T2I de Alibaba, Qwen-Image-Bench, es de código abierto, GPT Image 2 gana y es versátil en cinco categorías
El equipo de Qwen de Alibaba ha abierto al público la evaluación de dibujo de referencia Qwen-Image-Bench y el árbitro visual unificado Q-Judger, utilizados para evaluar la capacidad de generación de texto a imagen (T2I). Cubre cinco dimensiones: calidad de la imagen, estética, alineación de la imagen, realismo y creatividad, con 23 subcapacidades y 56 métricas; incluye 1000 palabras clave en chino e inglés. Ochoyenta evaluadores profesionales realizan evaluaciones a ciegas, con más de 130,000 pares de datos anotados, y la concordancia entre los jueces y las puntuaciones humanas alcanza el 92%. Entre los primeros 18 modelos, GPT Image 2 ocupa el primer lugar, y los modelos de élite aún muestran una brecha significativa en las dimensiones de realismo y creatividad; detalles como el estilo de dibujo, gravedad, iluminación y sombras siguen siendo obstáculos comunes.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado