Benchmark de avaliação de código aberto + árbitro unificado, T2I finalmente tem um sistema de pontuação que realmente funciona, realismo e criatividade ainda são uma linha divisória.

Ver original
BlockBeatNews
Avaliação T2I da Alibaba, Qwen-Image-Bench de código aberto, GPT Image 2 conquista o campeonato e é versátil em cinco categorias
A equipe do Qwen da Alibaba lançou a avaliação de referência de geração de imagens de código aberto Qwen-Image-Bench e o juiz visual unificado Q-Judger, usados para avaliar a capacidade de texto para imagem (T2I). Abrange cinco dimensões: qualidade de imagem, estética, alinhamento de imagem, realismo e criatividade, com 23 subcapacidades e 56 indicadores; inclui 1000 prompts bilíngues em chinês e inglês. 80 avaliadores profissionais realizaram avaliações às cegas, com mais de 130 mil pares de dados anotados, e a concordância entre o juiz e a avaliação humana atingiu 92%. Entre os 18 primeiros modelos, o GPT Image 2 ficou em primeiro lugar, e os modelos de ponta ainda apresentam uma diferença significativa nas dimensões de realismo e criatividade, enquanto detalhes como traços de artistas, gravidade, luz e sombra continuam sendo gargalos comuns.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado