GPT-5 và Gemini đều thất bại trước chữ khắc trên xương cổ, Tencent phát hành tiêu chuẩn đánh giá chữ cổ đầu tiên Chronicles-OCR

ME Tin tức, ngày 18 tháng 5 (UTC+8), theo theo dõi Beating, Tencent Hỗn Nguyên và Phòng thí nghiệm Văn hóa số SSV phối hợp với Viện Công nghệ Thông tin của Viện Hàn lâm Khoa học Trung Quốc và các tổ chức khác, chính thức ra mắt chuẩn đánh giá cảm nhận chữ cổ đầu tiên bao phủ "Thất thể biến" Chronicles-OCR.
Tiêu chuẩn này bao gồm 2800 hình ảnh do các chuyên gia gắn nhãn chéo, lần đầu tiên quy đổi độ khó nhận diện từ chữ khắc trên xương cốt đến thư pháp thành bảy loại phông chữ khác nhau.
Nhóm nghiên cứu đã đánh giá 28 mô hình ngôn ngữ đa phương thức lớn chủ đạo, kết quả cho thấy chúng hầu như thất bại hoàn toàn trên các phông chữ cổ xưa.
Trong nhiệm vụ phát hiện ký tự vượt thời đại, các chỉ số cốt lõi của GPT-5 và Gemini 2.5 Pro gần như bằng 0, ngay cả các mô hình mạnh nhất cũng chỉ đạt 16.5.
Ngay cả khi vẽ khung trực tiếp trên hình để bỏ qua bước định vị, tỷ lệ chính xác cao nhất cũng chỉ 27.1%, trong đó Gemini 3.1 Pro trên chữ khắc xương cốt chỉ đạt 14.0%.
Điều này chứng minh rằng các mô hình hiện đại phụ thuộc nặng nề vào tiền đề về bố cục hiện đại chuẩn hóa.
Đối mặt với phương tiện vật lý cổ xưa không ràng buộc, có nhiều nhiễu, cơ chế phân đoạn văn bản của mô hình trực tiếp thất bại.
Kết quả phân loại phông chữ còn cho thấy, mô hình thường nhận diện dựa trên kết cấu của vật thể (như mai rùa hoặc rỉ sắt đồng), chứ không phải thực sự các nét chữ.
Thí nghiệm còn tiết lộ một hiện tượng phản trực giác: bật chế độ suy nghĩ ngược lại làm giảm tỷ lệ nhận diện chữ cổ.
So sánh cho thấy, hầu hết các mô hình hỗ trợ chế độ này đều thể hiện kém đi sau khi bật chế độ suy nghĩ.
Khi cảm nhận thị giác nền tảng thiếu hụt, chuỗi suy nghĩ không chỉ không thể sửa lỗi, mà còn trở thành bộ khuếch đại ảo giác, xuất ra các câu trả lời sai với độ tự tin cao.
(Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim