Unisound U1-OCR: Model Dasar Kecerdasan Dokumen Industri Pertama yang Menyambut Era OCR 3.0

SelfRugger · 2026-04-04T16:45:05+00:00

Ini adalah siaran pers berbayar. Hubungi distributor siaran pers langsung untuk pertanyaan apa pun.Unisound U1-OCR: Model Dasar Kecerdasan Dokumen Berkelas Industri Pertama yang Menyambut OCR 3.0

SelfRugger

2026-04-04 16:45:05

Ini adalah rilis pers berbayar. Hubungi distributor rilis pers tersebut secara langsung untuk semua pertanyaan.

Unisound U1-OCR: Model Dasar (Foundation Model) Kecerdasan Dokumen Kelas Industri Pertama yang Memulai Era OCR 3.0

PR Newswire

Kam, 26 Februari 2026 pukul 11:10 PM GMT+9 bacaan 3 menit

Dalam artikel ini:

9678.HK

+1.93%

Unisound Meluncurkan U1-OCR: Model Kecerdasan Dokumen Kelas Industri Pertama, Memulai Era OCR 3.0

BEIJING, 26 Feb. 2026 /PRNewswire/ – Unisound secara resmi telah meluncurkan Unisound U1-OCR, model dasar pertama di dunia untuk kecerdasan dokumen kelas industri, sebuah rilis terobosan yang memulai era OCR 3.0 dan menetapkan standar industri baru dengan lima keunggulan inti: performa SOTA, hasil yang dapat diverifikasi, fungsionalitas siap pakai, penerapan yang efisien, dan adaptabilitas yang kuat.

Kecerdasan dokumen memanfaatkan AI untuk secara otomatis membaca, memahami, mengklasifikasikan dokumen digital, dan mengekstrak informasi penting. OCR 1.0 hanya memungkinkan pengenalan teks dasar, sementara OCR 2.0 menambahkan kemampuan pemahaman tata letak awal. U1-OCR membuat lompatan kuantum ke OCR 3.0, melampaui pengenalan tata letak untuk memberikan wawasan semantik yang mendalam, klasifikasi dokumen otomatis, dan ekstraksi informasi tingkat bisnis—menandai pergeseran transformatif dari “persepsi karakter” menjadi “kognisi dokumen”.

Sebagai model kecerdasan dokumen tingkat SOTA, U1-OCR mengatasi kemacetan lama model tradisional yang “mengenali teks tetapi gagal memahami tata letak”, memungkinkannya menafsirkan dokumen kompleks seperti ahli manusia. U1-OCR memperkenalkan strategi “berbasis semantik + fokus dinamis”, pertama-tama memetakan struktur hierarkis dokumen beserta metadata struktural sebelum mengekstrak konten sesuai permintaan, serta membangun peta semantik untuk mengidentifikasi hubungan antara judul, bagan, dan teks—bahkan pada tata letak yang tidak teratur. Modul penyelarasan spasial yang ditingkatkan memanfaatkan data posisi untuk memulihkan struktur dokumen secara akurat bagi tabel yang padat dan konten campuran teks-gambar, sehingga secara efektif mengurangi kesalahan pengenalan spasial. Dilengkapi dengan teknologi Multi-Token Prediction dan reinforcement learning untuk seluruh tugas, teknologi ini meningkatkan efisiensi penalaran lebih dari 80%, memastikan koherensi logis untuk dokumen panjang.

Dilatih dengan multi-task collaborative reinforcement learning dan dioptimalkan untuk semantik serta koordinat, U1-OCR menekan halusinasi spasial untuk keluaran yang andal, serta mencapai hasil SOTA di berbagai tolok ukur otoritatif utama: memperoleh skor 95,1 di OmniDocBench V1.5, mengungguli model terkemuka seperti GLM-OCR dan Gemini-3-Pro; mencapai skor F1 90,8 di D4LA dan 95,9 di DocLayNet, unggul dalam pengenalan tabel dan asosiasi lintas halaman; serta mengungguli model seperti Gemini-2.5-Flash dan Qwen-2.5-VL dalam pengujian bisnis internal, dengan performa menonjol dalam pemrosesan dokumen medis seperti catatan masuk dan keluar.

Cerita Berlanjut

Gambar: Perbandingan Skor Evaluasi Unisound U1-OCR di OmniDocBench V1.5 (PRNewsfoto/Unisound)

Dibuat untuk aplikasi industri dunia nyata, U1-OCR memiliki empat kapabilitas utama yang menjembatani kesenjangan antara pemahaman dokumen dan tindakan bisnis. Arsitektur berpaten “coordinate-text-semantics” memungkinkan penempatan tingkat piksel dan penelusuran bukti penuh, membuat proses audit menjadi transparan dan efisien. Terintegrasi dengan keahlian industri Unisound di bidang kesehatan dan keuangan, ia mencapai akurasi klasifikasi lebih dari 99% untuk lebih dari 50 dokumen bisnis umum, mendukung verifikasi logis lintas-bidang dengan kemampuan zero-shot. Ia mendukung penerapan private on-premise dan offline sekaligus tetap memberikan pemrosesan dokumen yang sangat efisien, memenuhi persyaratan ketat privasi data untuk sektor pemerintah, kesehatan, dan keuangan, sambil menurunkan biaya perangkat keras. Paling menonjol, ia memberikan kinerja yang stabil dan presisi tinggi dalam skenario ekstrem—termasuk foto non-standar, dokumen buram, format kompleks, dan teks multibahasa—membebaskan bisnis dari ketergantungan pada format dokumen yang distandardisasi.

Terverifikasi dalam kasus penggunaan dunia nyata, U1-OCR memungkinkan pelacakan visual informasi yang diekstrak, klasifikasi otomatis dokumen campuran, melakukan pemurnian gambar cerdas untuk tata letak yang berantakan, dan pengenalan yang akurat atas tabel bersarang yang kompleks dengan retensi struktur penuh.

Peluncuran U1-OCR menandai evolusi AI dari pengenalan teks sederhana menjadi pemahaman logika bisnis, langkah kunci bagi Unisound menuju AGI. Dengan menjadikan dokumen multimodal sebagai titik masuk pengetahuan, Unisound memberdayakan mesin dengan kemampuan penalaran otonom dan pelacakan bukti, mendorong AI dari kecerdasan perseptual ke kecerdasan kognitif—dengan visi untuk membangun agen cerdas umum yang membaca, berpikir, dan memecahkan masalah kompleks seperti manusia, mengubah setiap dokumen menjadi batu loncatan menuju AGI.

Cision

Lihat konten asli untuk mengunduh multimedia:

Ketentuan

dan Kebijakan Privasi

Dasbor Privasi

Info Lebih Lanjut

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.