GPT-5 et Gemini ont été complètement battus par les inscriptions sur os, Tencent a publié le premier benchmark d’évaluation des écritures anciennes Chronicles-OCR

ME News Actualités, le 18 mai (UTC+8), selon le monitoring de Beating, Tencent Hun Yuan et le laboratoire d'expérimentation culturelle numérique SSV, en collaboration avec l'Institut d'informatique de l'Académie chinoise des sciences, ont officiellement lancé le premier benchmark d'évaluation de la perception des caractères anciens couvrant « la transformation des sept formes » : Chronicles-OCR.
Ce benchmark comprend 2800 images annotées de manière croisée par des experts, quantifiant pour la première fois la difficulté de reconnaissance de sept styles d'écriture allant de l'écriture oracle à la cursive.
L'équipe de recherche a évalué 28 grands modèles de langage multimodaux populaires, et les résultats montrent qu'ils échouent presque tous sur les anciennes écritures.
Dans la tâche de détection de caractères trans-âges, les scores centraux de GPT-5 et Gemini 2.5 Pro sont proches de 0, même le modèle le plus performant n'atteignant que 16,5.
Même en dessinant directement des cadres sur l'image pour éviter l'étape de localisation, la précision maximale n'atteint que 27,1 %, Gemini 3.1 Pro n'ayant qu'une précision de 14,0 % sur l'écriture oracle.
Cela confirme que les modèles modernes dépendent fortement de l'hypothèse de mise en page moderne régulière.
Face à des médias physiques anciens sans contrainte et fortement bruités, le mécanisme de segmentation de texte du modèle échoue directement.
Les résultats de classification de police indiquent que les modèles reconnaissent souvent la texture du support (comme la carapace de tortue ou la rouille de bronze), plutôt que les traits réels des caractères.
L'expérimentation a également révélé un phénomène contre-intuitif : activer le mode réflexion entraîne une baisse du taux de reconnaissance des caractères anciens.
Les comparaisons montrent que presque tous les modèles supportant ce mode voient leur performance se dégrader après activation.
Lorsque la perception visuelle sous-jacente fait défaut, la chaîne de pensée ne peut pas corriger les erreurs, mais devient plutôt un amplificateur d'illusions, produisant des réponses erronées avec une grande confiance.
(Source : BlockBeats)
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé