伝前DeepSeekのコアメンバー主導、百度がオープンソース化した3Bドキュメント解析モデルUnlimited OCR

robot
概要作成中
ME AI メッセージによると、動察Beating監測によると、百度はオープンソースのドキュメントインテリジェント解析大規模モデルUnlimited-OCRを公開し、技術レポートを発表しました。レポートの署名によると、プロジェクトの技術ディレクターは仮名「YY」の神秘的なメンバーです。業界では広く推測されており、「YY」の正体は以前のDeepSeek-OCRのコア作者魏浩然であると考えられています。Unlimited-OCRモデルは、まさにDeepSeek-OCRの基盤上に構築されたものです。 Unlimited-OCRは長文ドキュメント解析のベンチマークテストOmniDocBench v1.6で93.92%のスコアを獲得し、エンドツーエンドのSOTA記録を更新しました。従来のドキュメント解析大規模モデルは、多ページの長文を処理する際に、キー値キャッシュKVキャッシュの線形増加により、動作速度が大幅に遅くなり、非常に多くのGPUメモリを消費します。 この遅延の問題を解決するために、百度は参考スライディングウィンドウ注意機構R-SWAを導入しました。デコード中にテキストを生成する際、モデルはすべての画像特徴と最近の固定ウィンドウ(デフォルトは128トークン)内で既に生成されたテキストのみに注目し、KVキャッシュの総容量上限を一定に保ちます。R-SWAは、ウィンドウの淘汰に伴う画像の詳細のぼやけを避けつつ、40ページ以上の長文解析時に推論速度とメモリ消費を一定に保つことを保証し、テストではDeepSeek-OCRより12.7%高速化されました。 現在、百度はMITライセンスの下でUnlimited-OCRのコードと重みをオープンソース化しており、Hugging Face Transformers、vLLM、SGLangなどの主流エンジンをサポートしています。その中で、SGLangはすでにR-SWAのキャッシュ最適化に対応しています。今後、チームは参考スライディングウィンドウ注意を音声認識ASRや翻訳などの他の参考型タスクに拡張する予定です。(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め