GPT-5 e Gemini fracassaram diante dos caracteres oracle, Tencent lança o primeiro benchmark de avaliação de textos antigos Chronicles-OCR

ME News Notícias, 18 de maio (UTC+8), de acordo com o monitoramento do Beating, Tencent Hun Yuan e o Laboratório de Cultura Digital SSV, em colaboração com o Instituto de Informação e Engenharia da Academia Chinesa de Ciências, lançaram oficialmente o primeiro padrão de avaliação de percepção de caracteres antigos que cobre a "Transformação dos Sete Tipos" Chronicles-OCR.
Este padrão inclui 2800 imagens anotadas cruzadamente por especialistas, quantificando pela primeira vez a dificuldade de reconhecimento de sete estilos de escrita, desde ossos de oráculo até caligrafia cursiva.
A equipe de pesquisa avaliou 28 modelos de linguagem multimodal de grande porte, e os resultados mostraram que eles quase não tiveram sucesso com fontes antigas.
Na tarefa de detecção de caracteres de época, os principais indicadores do GPT-5 e Gemini 2.5 Pro ficaram próximos de 0, e o modelo mais forte atingiu apenas 16,5.
Mesmo ao desenhar caixas diretamente nas imagens para eliminar a etapa de localização, a precisão máxima foi de apenas 27,1%, sendo que o Gemini 3.1 Pro teve uma precisão de apenas 14,0% em ossos de oráculo.
Isso confirma que os modelos modernos dependem fortemente de priorizações de layout moderno padronizado.
Diante de meios físicos antigos sem restrições e com forte ruído, o mecanismo de segmentação de texto do modelo falha diretamente.
Os resultados de classificação de fontes também indicam que os modelos frequentemente reconhecem a textura do suporte (como escamas de tartaruga ou ferrugem de bronze), ao invés de realmente identificar os traços dos caracteres.
Os experimentos também revelaram um fenômeno contraintuitivo: ativar o modo de reflexão na verdade reduz a taxa de reconhecimento de caracteres antigos.
A comparação mostra que quase todos os modelos que suportam esse modo apresentam desempenho deteriorado após ativá-lo.
Quando a percepção visual básica está ausente, a cadeia de raciocínio não consegue corrigir erros e, ao contrário, atua como um amplificador de ilusões, produzindo respostas incorretas com alta confiança.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado