Unisound U1-OCR: Перша промислова модель базового рівня для розуміння документів, яка відкриває еру OCR 3.0

SelfRugger

2026-04-04 16:45:05

Це платний пресреліз. Звертайтеся безпосередньо до розповсюджувача пресрелізів щодо будь-яких запитань.

Unisound U1-OCR: Перший фундаментальний модельний документознавства промислового рівня, який відкриває еру OCR 3.0

PR Newswire

Чт, 26 лютого 2026 р. о 11:10 PM GMT+9 3 min read

У цій статті:

9678.HK

+1.93%

Unisound презентує U1-OCR: Першу модель документного інтелекту промислового рівня, що відкриває еру OCR 3.0

ПЕКІН, 26 лютого 2026 р. /PRNewswire/ – Unisound офіційно запустила свій Unisound U1-OCR — першу в світі фундаментальну модель промислового рівня для документного інтелекту, проривний реліз, який відкриває еру OCR 3.0 та встановлює новий галузевий стандарт завдяки п’яти ключовим перевагам: SOTA-продуктивності, верифікованим результатам, готовим «із коробки» можливостям, ефективному розгортанню та надійній адаптивності.

Документний інтелект використовує ШІ для автоматичного читання, розуміння, класифікації оцифрованих документів та вилучення ключової інформації. OCR 1.0 забезпечував лише базове розпізнавання тексту, тоді як OCR 2.0 додав попередні можливості розуміння розмітки. U1-OCR робить квантовий стрибок до OCR 3.0, виходячи далеко за межі розпізнавання розмітки та забезпечуючи глибоке семантичне розуміння, автоматичну класифікацію документів і вилучення інформації на рівні бізнесу — позначаючи трансформаційний перехід від «сприйняття символів» до «пізнання документів».

Як модель документного інтелекту рівня SOTA, U1-OCR усуває давній вузький кут традиційних моделей, які «розпізнають текст, але не вміють осмислити розмітку», даючи їй змогу інтерпретувати складні документи так, як це роблять експерти. Вона першою впроваджує стратегію «семантика-орієнтована + динамічний фокус»: спочатку зіставляє ієрархічну структуру документа з заголовків і структурних метаданих, перш ніж витягувати контент за потреби, і будує семантичну мапу, щоб визначати взаємозв’язок між заголовками, діаграмами та текстом — навіть у безладних макетах. Її вдосконалений модуль просторового вирівнювання використовує позиційні дані, щоб точно відновлювати структуру документа для щільних таблиць і змішаного контенту «текст-ображення», ефективно зменшуючи помилки просторового розпізнавання. Оснащена технологією Multi-Token Prediction і повнофункціональним підкріплювальним навчанням під задачі, вона підвищує ефективність міркування більш ніж на 80%, забезпечуючи логічну узгодженість для довгих документів.

Навчена за допомогою багатозадачного спільного підкріплювального навчання та оптимізована як для семантики, так і для координат, U1-OCR пригнічує просторові «галюцинації» для надійних результатів і досягає результатів SOTA на провідних авторитетних бенчмарках: 95,1 на OmniDocBench V1.5, випереджаючи провідні моделі на кшталт GLM-OCR і Gemini-3-Pro; досягаючи F1-скор у 90,8 на D4LA та 95,9 на DocLayNet, демонструючи перевагу в розпізнаванні таблиць і кроссторінкових асоціаціях; та випереджаючи моделі на кшталт Gemini-2.5-Flash і Qwen-2.5-VL у внутрішніх бізнес-тестах, з особливо сильними результатами в обробці медичних документів, таких як записи про госпіталізацію та виписку.

Історія триває

Малюнок：Порівняння оцінок оцінювання Unisound U1-OCR на OmniDocBench V1.5 (PRNewsfoto/Unisound)

Створена для реальних промислових застосувань, U1-OCR має чотири ключові можливості, які змикають розрив між розумінням документів і бізнес-діями. Власна архітектура «coordinate-text-semantics» дає змогу виконувати позиціювання на рівні пікселів і повну простежуваність доказів, роблячи аудиторські процеси прозорими та ефективними. Інтегрована з галузевою експертизою Unisound у сфері охорони здоров’я та фінансів, вона досягає понад 99% точності класифікації для більш ніж 50 типових бізнес-документів, підтримуючи крос-польову логічну верифікацію за допомогою можливостей zero-shot. Вона підтримує приватне on-premise та офлайн-розгортання, одночасно забезпечуючи високу ефективність обробки документів і відповідаючи суворим вимогам конфіденційності даних для державного сектору, охорони здоров’я та фінансових галузей, знижуючи витрати на обладнання. Найпомітніше — вона забезпечує стабільну, високоточну продуктивність у екстремальних сценаріях, включно з нестандартними фото, розмитими документами, складним форматуванням і багатомовним текстом — звільняючи компанії від залежності від стандартизованих форматів документів.

Перевірена на реальних кейсах використання, U1-OCR забезпечує візуальну простежуваність вилученої інформації, автоматичну класифікацію змішаних документів, виконання інтелектуального очищення зображень для захаращених макетів, а також точне розпізнавання складних вкладених таблиць із повним збереженням структури.

Запуск U1-OCR означає еволюцію ШІ від простого розпізнавання тексту до розуміння бізнес-логіки — ключовий крок Unisound на шляху до AGI. Розглядаючи мультимодальні документи як точку входу до знань, Unisound наділяє машини автономним міркуванням і можливостями простежуваності доказів, просуваючи ШІ від перцептивного інтелекту до когнітивного — із баченням створити універсального інтелектуального агента, який читає, думає і розв’язує складні проблеми так, як люди, перетворюючи кожен документ на сходинку до AGI.

Cision

Перегляньте оригінальний контент, щоб завантажити мультимедіа:

Умови та Політика конфіденційності

Панель керування конфіденційністю

Більше інформації

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.