Unisound U1-OCR：産業グレードのドキュメントインテリジェンス基盤モデルの登場、OCR 3.0時代の幕開け

SelfRugger

2026-04-04 16:45:05

これは有料のプレスリリースです。不明点がある場合は、プレスリリース配信業者に直接お問い合わせください。

Unisound U1-OCR：OCR 3.0 の時代を先導する、最初の産業グレード文書インテリジェンス基盤モデル

PR Newswire

2026年2月26日（木） GMT+9 午後11時10分　3分で読めます

この記事について:

9678.HK

+1.93%

Unisound が U1-OCR を公開：産業グレードの文書インテリジェンスモデルとして初めて、OCR 3.0 の時代を先導

BEIJING, 2026年2月26日 /PRNewswire/ – Unisound は、文書インテリジェンスのための世界初の産業グレード基盤モデルである Unisound U1-OCR を正式にローンチしました。これは、OCR 3.0 の時代を切り開き、5つの中核的な強み――SOTA（最先端）性能、検証可能な結果、すぐに使える機能、効率的な導入、そして堅牢な適応力――によって新たな業界標準を打ち立てる画期的なリリースです。

文書インテリジェンスは、AI を活用してデジタル化された文書を自動的に読み取り、理解し、分類し、重要情報を抽出します。OCR 1.0 は基本的な文字認識のみを可能にした一方で、OCR 2.0 は予備的なレイアウト理解機能を追加しました。U1-OCR は OCR 3.0 へと量子跳躍し、レイアウト認識を大きく超えて深い意味理解を提供し、自動の文書分類とビジネスレベルの情報抽出を実現します――「文字の認識」から「文書の認知」への変革的な転換を示すものです。

SOTA レベルの文書インテリジェンスモデルとして、U1-OCR は「文字は認識できるがレイアウトを把握できない」という従来モデルの長年のボトルネックを解消し、人間の専門家のように複雑な文書を解釈できるようにします。「セマンティクス駆動 + 動的フォーカス」という戦略を先駆けて採用し、まず見出しの階層構造と構造メタデータを文書からマッピングしたうえで、必要に応じてコンテンツを抽出し、タイトル、図表、本文の関係を、まとまりのないレイアウトにおいても特定するセマンティックマップを構築します。強化された空間アライメント・モジュールは位置データを活用して、密度の高い表や、テキストと画像が混在するコンテンツにおける文書構造を正確に復元し、空間認識エラーを効果的に軽減します。マルチトークン予測技術とフルタスク強化学習を備えることで、長文における推論効率を 80% 超に引き上げ、論理的一貫性を保証します。

マルチタスクの共同強化学習で訓練され、セマンティクスと座標の両方に最適化された U1-OCR は、空間的な幻覚（ハルシネーション）を抑制して信頼できる出力を実現し、主要な権威あるベンチマークで SOTA の結果を達成しています。OmniDocBench V1.5 で 95.1 を獲得し、GLM-OCR や Gemini-3-Pro のような主要モデルを上回ります。D4LA で F1 スコア 90.8、DocLayNet で 95.9 を達成し、表の認識とページをまたぐ関連付けで優れた成果を示します。さらに社内のビジネステストでは、Gemini-2.5-Flash や Qwen-2.5-VL などのモデルを上回り、入院記録や退院記録といった医療文書処理で際立った性能を発揮します。

物語は続きます

図：OmniDocBench V1.5 における Unisound U1-OCR 評価スコアの比較（PRNewsfoto/Unisound）

実運用の産業アプリケーション向けに設計された U1-OCR は、文書理解とビジネス上のアクションのギャップを埋める 4つの主要な機能を備えています。独自の「座標-テキスト-セマンティクス」アーキテクチャにより、ピクセル単位の配置と完全な証拠のトレーサビリティを可能にし、監査プロセスを透明かつ効率的にします。Unisound の医療と金融分野における業界知見と統合することで、50種類以上の一般的なビジネス文書に対して 99% 超の分類精度を実現し、ゼロショット機能による分野横断の論理検証をサポートします。プライベートなオンプレミス導入やオフライン導入に対応しつつ、高効率の文書処理を提供し、政府、医療、金融分野における厳格なデータプライバシー要件を満たしながら、ハードウェアコストを引き下げます。とりわけ、標準外の写真、ブレた文書、複雑な書式、多言語テキストといった極端なシナリオにおいても安定した高精度の性能を実現し、企業が標準化された文書形式への依存から解放されます。

実際のユースケースで検証されており、U1-OCR は抽出された情報の視覚的トレーサビリティを可能にし、混在文書の自動分類を行い、散らかったレイアウトに対してインテリジェントな画像浄化を実行し、構造を完全に保持したまま複雑なネスト表を正確に認識します。

U1-OCR のローンチは、AI が単純な文字認識からビジネスロジックの理解へ進化することを示しており、Unisound が AGI に向かううえでの重要なステップです。マルチモーダル文書を知識の入力点として捉えることで、Unisound は機械に自律的な推論と証拠トレーサビリティの能力を与え、AI を知覚的インテリジェンスから認知的インテリジェンスへと推し進めます。人間のように文書を読み、考え、複雑な問題を解決する一般的な知的エージェントを構築するというビジョンにより、あらゆる文書を AGI への踏み石へと変えていきます。

Cision

マルチメディアをダウンロードするために、元のコンテンツを表示:

利用規約　および　プライバシーポリシー

プライバシーダッシュボード

さらに情報

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。