Unisound U1-OCR: O Primeiro Modelo Fundamental de Inteligência de Documentos de Grau Industrial que Marca a Era OCR 3.0

2026-04-04 16:45:05

Este é um comunicado de imprensa pago. Contacte diretamente o distribuidor do comunicado de imprensa para quaisquer questões.

Unisound U1-OCR: O Primeiro Modelo Base de Inteligência de Documentos a Nível Industrial, que Acolhe a Era do OCR 3.0

PR Newswire

Qui, 26 de fevereiro de 2026 às 23:10 GMT+9 3 min de leitura

Neste artigo:

9678.HK

+1,93%

Unisound revela U1-OCR: O Primeiro Modelo de Inteligência de Documentos a Nível Industrial, que Acolhe a Era do OCR 3.0

PEQUIM, 26 de fevereiro de 2026 /PRNewswire/ – A Unisound lançou oficialmente a sua Unisound U1-OCR, o primeiro modelo base do mundo a nível industrial para inteligência de documentos, um lançamento pioneiro que abre a era do OCR 3.0 e estabelece um novo padrão na indústria com cinco pontos fortes fundamentais: desempenho SOTA, resultados verificáveis, funcionalidades prontas de base, implementação eficiente e adaptabilidade robusta.

A inteligência de documentos tira partido da IA para ler, compreender, classificar automaticamente documentos digitalizados e extrair informações-chave. O OCR 1.0 apenas permitiu o reconhecimento básico de texto, enquanto o OCR 2.0 acrescentou capacidades preliminares de compreensão do layout. O U1-OCR dá um salto quântico para o OCR 3.0, indo muito além do reconhecimento de layout para fornecer uma perceção semântica profunda, classificação automática de documentos e extração de informação a nível empresarial—assinalando uma mudança transformadora de “perceção de caracteres” para “cognição de documentos”.

Como um modelo de inteligência de documentos ao nível SOTA, o U1-OCR resolve o estrangulamento de longa data dos modelos tradicionais que “reconhecem texto mas falham em compreender o layout”, permitindo-lhe interpretar documentos complexos como um especialista humano. Inaugura uma estratégia de “orientação semântica + foco dinâmico”, mapeando primeiro a estrutura hierárquica de títulos e metadados estruturais de um documento antes de extrair conteúdo quando necessário, e constrói um mapa semântico para identificar a relação entre títulos, gráficos e texto—mesmo em layouts desorganizados. O seu módulo melhorado de alinhamento espacial utiliza dados de posicionamento para restaurar com precisão a estrutura do documento para tabelas densas e conteúdos mistos de texto-imagem, mitigando eficazmente erros de reconhecimento espacial. Equipado com a tecnologia de Multi-Token Prediction e com aprendizagem por reforço para tarefas completas, aumenta a eficiência do raciocínio em mais de 80%, garantindo coerência lógica para documentos longos.

Treinado com aprendizagem por reforço colaborativa de múltiplas tarefas e otimizado tanto para semântica como para coordenadas, o U1-OCR suprime alucinações espaciais para obter resultados fiáveis e alcança resultados SOTA nas principais referências de grande autoridade: pontuando 95,1 no OmniDocBench V1.5, superando modelos líderes como GLM-OCR e Gemini-3-Pro; atingindo uma pontuação F1 de 90,8 no D4LA e 95,9 no DocLayNet, destacando-se no reconhecimento de tabelas e na associação entre páginas; e superando modelos como Gemini-2.5-Flash e Qwen-2.5-VL em testes internos de negócio, com desempenho notável no processamento de documentos médicos, como registos de admissão e alta.

A história continua

Figura: Comparação das Pontuações de Avaliação do Unisound U1-OCR no OmniDocBench V1.5 (PRNewsfoto/Unisound)

Construído para aplicações industriais no mundo real, o U1-OCR apresenta quatro capacidades-chave que fazem a ponte entre a compreensão de documentos e a ação empresarial. A sua arquitetura proprietária “coordinate-text-semantics” permite o posicionamento ao nível de pixel e a rastreabilidade completa das evidências, tornando os processos de auditoria transparentes e eficientes. Integrado com a experiência da Unisound na área de saúde e finanças, alcança mais de 99% de precisão na classificação de mais de 50 documentos empresariais comuns, suportando verificação lógica entre áreas com capacidades zero-shot. Suporta implementação privada no local e offline, enquanto entrega um processamento de documentos altamente eficiente, cumprindo requisitos rigorosos de privacidade de dados para os setores governamental, da saúde e das finanças, ao mesmo tempo que reduz custos de hardware. O mais notável é que oferece um desempenho estável e de elevada precisão em cenários extremos—incluindo fotografias não padronizadas, documentos desfocados, formatação complexa e texto multilíngue—libertando as empresas da dependência de formatos de documentos normalizados.

Validados em casos de uso no mundo real, o U1-OCR permite rastreabilidade visual das informações extraídas, classificação automática de documentos mistos, realizando purificação inteligente de imagens para layouts caóticos e reconhecimento preciso de tabelas aninhadas complexas com retenção total da estrutura.

O lançamento do U1-OCR marca a evolução da IA do reconhecimento simples de texto para a compreensão da lógica do negócio, um passo-chave para a Unisound em direção à AGI. Ao tomar documentos multimodais como ponto de entrada de conhecimento, a Unisound está a capacitar as máquinas com capacidades de raciocínio autónomo e rastreabilidade de evidências, impulsionando a IA da inteligência percetiva para a inteligência cognitiva—com a visão de construir um agente inteligente geral que lê, pensa e resolve problemas complexos como os humanos, transformando cada documento num degrau para a AGI.

Cision

Ver o conteúdo original para descarregar multimédia:

Termos e Política de Privacidade

Privacy Dashboard

Mais informações

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.