Dipimpin oleh anggota inti DeepSeek sebelumnya, Baidu merilis model analisis dokumen 3B sumber terbuka Unlimited OCR

robot
Pembuatan abstrak sedang berlangsung
ME AI Pesan, menurut pemantauan Beating, dokumen sumber terbuka Baidu tentang model besar analisis cerdas dokumen dan laporan teknisnya dirilis. Nama penandatangan laporan menunjukkan bahwa direktur teknis proyek adalah anggota misterius dengan nama samaran «YY». Spekulasi luas di industri menyebutkan bahwa identitas asli «YY» adalah penulis inti DeepSeek-OCR Wei Haoran. Model Unlimited-OCR juga dibangun berdasarkan basis DeepSeek-OCR. Unlimited-OCR meraih skor 93,92% dalam pengujian standar analisis dokumen panjang OmniDocBench v1.6, memecahkan rekor SOTA end-to-end terbaru. Model analisis dokumen besar tradisional sering kali mengalami perlambatan besar dan konsumsi memori yang tinggi saat memproses teks panjang multi-halaman karena lonjakan linier cache kunci-nilai KV. Untuk mengatasi masalah perlambatan ini, Baidu memperkenalkan mekanisme perhatian geser referensi R-SWA. Saat mendekode dan menghasilkan teks, model hanya memperhatikan semua fitur gambar dan teks yang telah dihasilkan dalam jendela tetap terkini (secara default 128 token), sehingga batas volume cache KV secara keseluruhan dikunci sebagai konstan. R-SWA tidak hanya menghindari detail gambar menjadi kabur karena penghapusan jendela, tetapi juga memastikan kecepatan inferensi dan konsumsi memori tetap konstan saat menganalisis dokumen lebih dari 40 halaman, dengan peningkatan kecepatan 12,7% dibandingkan DeepSeek-OCR selama pengujian. Saat ini, Baidu telah merilis kode dan bobot Unlimited-OCR dengan lisensi MIT secara open source, mendukung mesin utama seperti Hugging Face Transformers, vLLM, SGLang, dan lainnya, di mana SGLang telah mendukung optimisasi cache untuk R-SWA. Ke depan, tim berencana memperluas perhatian geser referensi ke pengenalan suara ASR dan tugas referensi lainnya seperti terjemahan. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan