Dưới sự chỉ đạo của các thành viên cốt lõi của DeepSeek trước đây, Baidu đã mở mã mô hình phân tích tài liệu 3B Unlimited OCR

robot
Đang tạo bản tóm tắt
ME AI Thông báo, theo giám sát Beating, tài liệu mã nguồn mở của Baidu về mô hình phân tích thông minh tài liệu Unlimited-OCR đã được phát hành kèm báo cáo kỹ thuật. Trong báo cáo, tên người ký ghi nhận rằng giám đốc kỹ thuật của dự án là một thành viên bí ẩn với bí danh «YY». Trong giới ngành, đồn đoán rộng rãi rằng danh tính thực sự của «YY» là Wei Haoran, tác giả cốt lõi của DeepSeek-OCR. Mô hình Unlimited-OCR cũng được xây dựng dựa trên nền tảng của DeepSeek-OCR. Unlimited-OCR đã đạt điểm 93.92% trong bài kiểm tra chuẩn phân tích tài liệu dài OmniDocBench v1.6, thiết lập kỷ lục SOTA mới về toàn bộ quá trình. Các mô hình phân tích tài liệu truyền thống khi xử lý nhiều trang dài thường gặp phải tốc độ chậm lại đáng kể do sự tăng tuyến tính của bộ nhớ đệm khóa-giá trị KV cache, gây tiêu thụ nhiều bộ nhớ GPU. Để giải quyết vấn đề chậm này, Baidu đã giới thiệu cơ chế chú ý trượt cửa sổ tham khảo R-SWA. Khi giải mã tạo văn bản, mô hình chỉ tập trung vào tất cả các đặc trưng hình ảnh và văn bản đã tạo trong cửa sổ cố định gần nhất (mặc định 128 token), từ đó giới hạn tổng thể kích thước của KV cache ở mức cố định. R-SWA vừa tránh cho chi tiết hình ảnh bị mờ đi khi cửa sổ loại bỏ, vừa đảm bảo tốc độ suy luận và tiêu thụ bộ nhớ GPU ổn định khi phân tích các tài liệu dài hơn 40 trang, trong thử nghiệm đã tăng tốc 12.7% so với DeepSeek-OCR. Hiện tại, Baidu đã mở mã nguồn Unlimited-OCR theo giấy phép MIT, hỗ trợ các engine phổ biến như Hugging Face Transformers, vLLM, SGLang, trong đó SGLang đã hỗ trợ tối ưu hóa bộ nhớ đệm cho R-SWA. Trong tương lai, nhóm dự định mở rộng cơ chế chú ý trượt cửa sổ tham khảo sang các nhiệm vụ khác như nhận dạng giọng nói ASR và dịch thuật. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim