TIIは2つのオープンソースFalcon Visionモデルをリリース：0.6Bセグメンテーションが言語の複雑さの増加に伴いSAM 3を上回る

AirdropBlackHole · 2026-04-01T23:02:26+00:00

アラブ首長国連邦のテクノロジーイノベーション研究所 (TII) は、Hugging Faceで2つのビジョンモデル、Falcon PerceptionとFalcon OCRを公開しました。これらのモデルは、画像とテキストの理解を向上させるために単一のTransformerバックボーンを採用しています。Falcon Perceptionは複雑な言語タスクに優れ、Falcon OCRはドキュメント処理の効率性でリードしています。

AirdropBlackHole

2026-04-01 23:02:26

概要作成中

1M AIニュースのモニタリングによると、アラブ首長国連邦（UAE）のテクノロジー・イノベーション・インスティテュート（TII）は、Hugging Face上で2つのビジョンモデル、Falcon PerceptionとFalcon OCRをリリースした。両モデルはいずれも「early fusion（アーリー・フュージョン）」の単一Transformerバックボーンを利用している。画像パッチとテキストトークンがパラメータ空間を共有し、画像トークンは双方向アテンションを使い、テキストトークンは因果（causal）アテンションを使うことで、「従来の『視覚エンコーダ＋テキストデコーダ』のカスケード設計」を排除している。これにより、モデルは、視覚特徴の単なるセマンティック検索ではなく、自然言語における空間制約や物体関係を本当に理解できるようになる。Falcon Perceptionは0.6B（6億）パラメータを持ち、オープンボキャブラリの画像セグメンテーションとローカリゼーション向けに設計されている。SA-CoベンチマークでMacro-F1スコア68.0を達成し、Meta SAM 3のスコア62.3を上回った。TIIはまた、能力を階層的に評価する診断ベンチマークPBenchもリリースした。Falcon Perceptionは、言語理解を要するタスクで最も大きなリードを示している：1. L2（OCRガイド付き認識、たとえば「168」とラベルの付いたボトルを見つける）：38.0 vs SAM 3の24.6（+13.4）2. L3（空間関係、たとえば「左にある黒い車」や「左から3番目の窓」）：53.5 vs SAM 3の31.6（+21.9）3. L4（インタラクティブな関係、たとえば「傘を持っている人」や「電話を使っている人」）：49.1 vs SAM 3の33.3（+15.8）4. 密なシーン（数百のインスタンスが共存）：72.6 vs SAM 3の58.4（+14.2）。単純な物体（L0）でのギャップはわずか+0.8にとどまり、言語の複雑さが増すほど不一致（差）が拡大するという傾向を裏付けている。インスタンス存在のキャリブレーション（ターゲットが存在するかどうか）に関しては、SAM 3は依然として優位だ：MCC 0.82 vs 0.64。Falcon OCRは0.3B（3億）パラメータで、同じバックボーンを再利用しているが、スクラッチから学習し、特にドキュメント理解のために設計されている。olmOCRベンチマークで80.3をスコアし（上位との差は1.7ポイント）、マルチカラムレイアウト（87.1%）とテーブル抽出（90.3%）で、テストされたすべてのモデルをリードした。OmniDocBenchでは88.64をスコアし、より大きなパラメータのモデルや、DeepSeek OCR v2、GPT 5.2、Mistral OCR 3のような専有インフラに依存するモデルを上回った。TIIによれば、Falcon OCRは最高スループットのオープンソースOCRモデルであり、単一のA100-80GBで5,825 tokens per secondという高い並行度テスト（フルプロセスで約2.9画像/秒）を達成している。両モデルは現在Hugging Faceでオープンソース化されており、Falcon PerceptionにはオンラインのPlaygroundが用意されている。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。