Unisound U1-OCR: Первая промышленная модель основы для интеллектуальной обработки документов, открывающая эпоху OCR 3.0

SelfRugger · 2026-04-04T16:45:05+00:00

Это платное пресс-релиз. Свяжитесь напрямую с распространителем пресс-релиза по любым вопросам.Unisound U1-OCR: Первый промышленный базовый модель документационного интеллекта, открывающая OCR 3.0

SelfRugger

2026-04-04 16:45:05

Это оплачиваемый пресс-релиз. По всем вопросам напрямую обращайтесь к распространителю пресс-релиза.

Unisound U1-OCR: первая в мире промышленная основная модель для анализа документов, открывающая эпоху OCR 3.0

PR Newswire

Чт, 26 февраля 2026 г., 23:10 по GMT+9, время чтения: 3 мин

В этой статье:

9678.HK

+1.93%

Unisound представляет U1-OCR: первую промышленную модель анализа документов, открывающую эпоху OCR 3.0

ПЕКИН, 26 февраля 2026 г. /PRNewswire/ – Unisound официально запустила Unisound U1-OCR — первую в мире промышленную основную модель для анализа документов, революционный релиз, который открывает эпоху OCR 3.0 и задает новый отраслевой стандарт благодаря пяти ключевым преимуществам: SOTA-результативность, верифицируемые результаты, готовность «из коробки», эффективное развертывание и надежная адаптивность.

Анализ документов (document intelligence) использует ИИ, чтобы автоматически читать, понимать, классифицировать оцифрованные документы и извлекать ключевую информацию. OCR 1.0 обеспечивал только базовое распознавание текста, тогда как OCR 2.0 добавил предварительные возможности понимания структуры страницы. U1-OCR делает квантовый скачок до OCR 3.0, выходя далеко за рамки распознавания разметки и предоставляя глубокое семантическое понимание, автоматическую классификацию документов и извлечение информации на уровне бизнеса — знаменуя преобразующий переход от «восприятия символов» к «познанию документа».

Как модель анализа документов уровня SOTA, U1-OCR устраняет давнее узкое место традиционных моделей, которые «распознают текст, но не умеют понимать разметку», позволяя ей интерпретировать сложные документы на уровне экспертов-человек. Она первой внедряет стратегию «семантика-ориентированная + динамический фокус»: сначала сопоставляет иерархическую структуру документа из заголовков и структурной метаданных, а затем извлекает контент по запросу, и строит семантическую карту, чтобы выявлять взаимосвязь между заголовками, диаграммами и текстом — даже в неупорядоченных макетах. Расширенный модуль пространственного выравнивания использует позиционные данные, чтобы точно восстанавливать структуру документа для плотных таблиц и смешанного тексто-изобразительного контента, эффективно снижая ошибки пространственного распознавания. Оснащенная технологией Multi-Token Prediction и полноценным reinforcement learning для всей задачи, она повышает эффективность рассуждений более чем на 80%, гарантируя логическую согласованность для длинных документов.

Обученная с помощью многозадачного совместного reinforcement learning и оптимизированная как для семантики, так и для координат, U1-OCR подавляет пространственные «галлюцинации» для надежных результатов и достигает результатов уровня SOTA на основных авторитетных бенчмарках: набирая 95.1 в OmniDocBench V1.5, превосходя ведущие модели, такие как GLM-OCR и Gemini-3-Pro; достигая F1 90.8 в D4LA и 95.9 в DocLayNet, демонстрируя превосходство в распознавании таблиц и кросс-страничной ассоциации; и обгоняя такие модели, как Gemini-2.5-Flash и Qwen-2.5-VL, в внутренних бизнес-тестах, с особенно яркой производительностью при обработке медицинских документов — например, записей о поступлении и выписке.

История продолжается

Рисунок: Сравнение оценок качества оценки Unisound U1-OCR на OmniDocBench V1.5 (PRNewsfoto/Unisound)

Созданная для реальных промышленных применений, U1-OCR предлагает четыре ключевые функции, которые закрывают разрыв между пониманием документов и бизнес-действиями. Ее запатентованная архитектура «coordinate-text-semantics» обеспечивает позиционирование на пиксельном уровне и полную трассируемость доказательств, делая аудиторские процессы прозрачными и эффективными. Интегрированная с отраслевой экспертизой Unisound в здравоохранении и финансах, она достигает точности классификации более 99% для более чем 50 распространенных бизнес-документов, поддерживая кросс-полеовую логическую верификацию с возможностями zero-shot. Она поддерживает приватное on-premise и офлайн-развертывание, при этом обеспечивает высокоэффективную обработку документов, удовлетворяя строгим требованиям конфиденциальности данных для государственного сектора, здравоохранения и финансов, одновременно снижая затраты на оборудование. Самое примечательное: она обеспечивает стабильную высокоточную производительность в экстремальных сценариях — включая нестандартные фотографии, размытые документы, сложное форматирование и многоязычный текст — освобождая бизнес от зависимости от стандартизированных форматов документов.

Проверенная в реальных сценариях использования, U1-OCR обеспечивает визуальную трассируемость извлеченной информации, автоматическую классификацию смешанных документов, выполнение интеллектуальной очистки изображений для загроможденных макетов и точное распознавание сложных вложенных таблиц с полным сохранением структуры.

Запуск U1-OCR знаменует эволюцию ИИ от простого распознавания текста к пониманию бизнес-логики — ключевой шаг Unisound на пути к AGI. Используя мультимодальные документы в качестве точки входа в знания, Unisound наделяет машины автономными рассуждениями и возможностями трассируемости доказательств, переводя ИИ от перцептивного интеллекта к когнитивному — с видением построить универсального интеллектуального агента, который читает, думает и решает сложные задачи, как человек, превращая каждый документ в ступеньку на пути к AGI.

Cision

Просмотреть исходный контент, чтобы загрузить мультимедиа:

Условия и политика конфиденциальности

Панель управления конфиденциальностью

Дополнительная информация

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .