GPT-5 dan Gemini kalah telak di depan Oracle, Tencent merilis standar evaluasi teks kuno pertama Chronicles-OCR

ME News Berita, 18 Mei (UTC+8), menurut pemantauan Beating dari Dongcha, Tencent Hunyuan dan Laboratorium Eksperimen Budaya Digital SSV bekerja sama dengan Institusi Informasi dan Komputer Akademi Ilmu Pengetahuan Tiongkok, secara resmi meluncurkan standar penilaian persepsi karakter kuno pertama yang mencakup "Perubahan Tujuh Bentuk" Chronicles-OCR.
Standar ini mencakup 2800 gambar yang diberi anotasi silang oleh para ahli, pertama kali mengkuantifikasi tingkat kesulitan pengenalan dari tulisan oracle hingga kaligrafi草书 dalam tujuh jenis font.
Tim peneliti mengevaluasi 28 model bahasa besar multimodal utama, hasilnya menunjukkan bahwa mereka hampir seluruhnya gagal pada font kuno.
Dalam tugas deteksi karakter lintas zaman, indikator inti GPT-5 dan Gemini 2.5 Pro mendekati 0, bahkan model terbaik hanya mencapai 16,5.
Bahkan dengan menggambar kotak langsung di gambar tanpa langkah penentuan posisi, tingkat akurasi tertinggi hanya 27,1%, di mana Gemini 3.1 Pro pada oracle hanya mencapai 14,0%.
Ini membuktikan bahwa model modern sangat bergantung pada prasyarat tata letak modern yang teratur.
Menghadapi media fisik kuno yang tidak terikat dan berisik tinggi, mekanisme segmentasi teks model langsung gagal.
Hasil klasifikasi font lebih jauh menunjukkan bahwa model sering kali mengenali tekstur media (seperti cangkang kura-kura atau karat perunggu), bukan benar-benar goresan karakter.
Eksperimen juga mengungkapkan fenomena yang kontra intuitif: mengaktifkan mode berpikir malah menurunkan tingkat pengenalan karakter kuno.
Perbandingan menunjukkan bahwa hampir semua model yang mendukung mode ini mengalami penurunan performa setelah mengaktifkan mode berpikir.
Ketika persepsi visual dasar hilang, rantai pemikiran tidak hanya gagal memperbaiki kesalahan, malah menjadi penguat ilusi, menghasilkan jawaban salah dengan tingkat kepercayaan tinggi.
(Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan