GPT-5與Gemini在甲骨文前全軍覆沒,騰訊發布首個古文字評測基準Chronicles-OCR

ME News 消息,5 月 18 日(UTC+8),據 動察 Beating 監測,騰訊混元及 SSV 數字文化實驗室聯合中科院信工所等機構,正式推出首個覆蓋「七體之變」的古文字感知評測基準 Chronicles-OCR。該基準包含 2800 張由專家交叉標註的圖像,首次將甲骨文到草書等七種字體的識別難度統一量化。
研究團隊評測了 28 個主流多模態大語言模型,結果顯示它們在古早字體上幾乎全軍覆沒。在跨時代字符檢測任務中,GPT-5 和 Gemini 2.5 Pro 的核心指標接近 0,表現最強的模型也僅有 16.5。即使直接在圖上畫框免除定位步驟,最高準確率也只有 27.1%,其中 Gemini 3.1 Pro 在甲骨文上的準確率僅 14.0%。
這證實了現代模型嚴重依賴規整的現代版式先驗。面對無約束、強噪聲的古代物理媒介,模型的文本分割機制直接失效。字體分類結果進一步表明,模型往往是在識別載體紋理(如龜甲或青銅鏽),而非真正的字符筆畫。
實驗還揭示了一個反直覺的現象:開啟思考模式反而會導致古文字識別率下降。對照顯示,幾乎所有支持該模式的模型在開啟思考後表現退化。當底層視覺感知缺失時,思維鏈不僅無法糾錯,反而會變成幻覺放大器,輸出高自信的錯誤答案。
(來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆