GPT-5 e Gemini fracassaram perante os caracteres oracle, a Tencent lançou o primeiro benchmark de avaliação de escrita antiga Chronicles-OCR

ME News Notícias, 18 de maio (UTC+8), de acordo com o monitoramento do Beating, Tencent Hun Yuan e o Laboratório de Cultura Digital SSV, em colaboração com o Instituto de Informação e Engenharia da Academia Chinesa de Ciências, lançaram oficialmente o primeiro padrão de avaliação de percepção de caracteres antigos que cobre a "Transformação dos Sete Tipos" Chronicles-OCR.
Este padrão inclui 2800 imagens anotadas cruzadamente por especialistas, quantificando pela primeira vez a dificuldade de reconhecimento de sete fontes, desde ossos oraculares até caligrafia cursiva.
A equipe de pesquisa avaliou 28 modelos de linguagem multimodal de grande porte, e os resultados mostraram que eles quase fracassaram completamente em fontes antigas.
Na tarefa de detecção de caracteres de época, os principais indicadores do GPT-5 e Gemini 2.5 Pro ficaram próximos de 0, e o modelo mais forte atingiu apenas 16,5.
Mesmo ao desenhar caixas diretamente na imagem para eliminar a etapa de localização, a precisão máxima foi de apenas 27,1%, sendo que o Gemini 3.1 Pro obteve apenas 14,0% de precisão em ossos oraculares.
Isso confirma que os modelos modernos dependem fortemente de priorizações de layout moderno padronizado.
Diante de meios físicos antigos sem restrições e com forte ruído, o mecanismo de segmentação de texto do modelo falha diretamente.
Os resultados de classificação de fontes indicam que os modelos frequentemente reconhecem as texturas do suporte (como escamas de tartaruga ou ferrugem de bronze), ao invés de realmente identificar os traços dos caracteres.
Os experimentos também revelaram um fenômeno contra-intuitivo: ativar o modo de reflexão na verdade reduz a taxa de reconhecimento de caracteres antigos.
A comparação mostra que quase todos os modelos que suportam esse modo apresentam desempenho deteriorado após ativá-lo.
Quando a percepção visual básica está ausente, a cadeia de raciocínio não consegue corrigir erros e, ao contrário, amplifica ilusões, produzindo respostas incorretas com alta confiança.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado