GPT-5とGeminiは甲骨文字の前で全軍撃沈、テンセントは最初の古文字評価基準Chronicles-OCRを発表

ME News ニュース、5月18日(UTC+8)、動察Beatingの監測によると、テンセントの混元およびSSVデジタル文化実験室は、中科院信工所などの機関と共同で、「七体之变」をカバーする古文字感知評価基準Chronicles-OCRを正式に発表しました。この基準には、専門家が交差して注釈を付けた2800枚の画像が含まれ、甲骨文字から草書までの7種類の字体の識別難易度を初めて統一的に定量化しています。 研究チームは28の主流多模態大規模言語モデルを評価し、その結果、これらは古い字体にほぼ全滅状態であることが示されました。時代を超えた文字検出タスクでは、GPT-5とGemini 2.5 Proのコア指標は0に近く、最も優れたモデルでも16.5にとどまっています。画像上に直接枠を描くことで位置決めのステップを省略しても、最高正確率は27.1%に過ぎず、その中でGemini 3.1 Proの甲骨文字における正確率はわずか14.0%です。 これは、現代モデルが規則的な現代的レイアウトの先験性に大きく依存していることを裏付けています。制約のない強いノイズを伴う古代の物理的媒体に直面すると、モデルのテキスト分割メカニズムは直接失効します。字体分類の結果はさらに、モデルが実際の文字の筆画ではなく、むしろ亀甲や青銅の錆びた模様などの媒体のテクスチャを識別していることを示しています。 実験はまた、逆説的な現象も明らかにしました:思考モードをオンにすると、むしろ古文字識別率が低下するというものです。比較の結果、ほぼすべてのこのモードをサポートするモデルは、思考を開始するとパフォーマンスが低下します。基底の視覚感知が欠如している場合、思考チェーンは誤りを修正できず、むしろ幻覚増幅器となり、高い自信を持った誤答を出力します。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし