TII publie deux modèles Falcon Vision open source : la segmentation 0,6B dépasse SAM 3 avec la complexité croissante du langage

AirdropBlackHole · 2026-04-01T23:02:26+00:00

L'Institut d'Innovation Technologique (TII) aux Émirats arabes unis a lancé deux modèles de vision, Falcon Perception et Falcon OCR, sur Hugging Face. Ces modèles disposent d'une seule architecture Transformer pour une meilleure compréhension image-texte. Falcon Perception excelle dans les tâches linguistiques complexes, tandis que Falcon OCR domine en efficacité de traitement de documents.

AirdropBlackHole

2026-04-01 23:02:26

Création du résumé en cours

Selon le suivi de 1M AI News, l’Institute of Technology Innovation (TII) aux Émirats arabes unis (UAE) a publié deux modèles de vision, Falcon Perception et Falcon OCR, sur Hugging Face. Les deux modèles utilisent un seul backbone Transformer en « early fusion » : les patchs d’image et les tokens de texte partagent l’espace des paramètres, les tokens d’image utilisant une attention bidirectionnelle et les tokens de texte une attention causale, supprimant la conception en cascade traditionnelle « visual encoder + text decoder ». Cela permet aux modèles de comprendre réellement les contraintes spatiales et les relations entre objets dans un langage naturel, plutôt que de simplement effectuer une recherche sémantique de caractéristiques visuelles. Falcon Perception compte 0,6 milliard de paramètres et est conçu pour la segmentation et la localisation en vocabulaire ouvert. Il a obtenu un score Macro-F1 de 68,0 sur le benchmark SA-Co, dépassant le score de Meta SAM 3 (62,3). La TII a également publié le benchmark de diagnostic PBench, qui évalue les capacités de manière hiérarchique. Falcon Perception montre le plus grand avantage sur les tâches nécessitant la compréhension du langage : 1. L2 (reconnaissance guidée par OCR, comme trouver « un biberon portant l’étiquette 168 ») : 38,0 contre 24,6 pour SAM 3 (+13,4) 2. L3 (relations spatiales, comme « la voiture noire à gauche » et « la troisième fenêtre à partir de la gauche ») : 53,5 contre 31,6 pour SAM 3 (+21,9) 3. L4 (relations interactives, comme « la personne qui tient un parapluie » et « la personne qui utilise un téléphone ») : 49,1 contre 33,3 pour SAM 3 (+15,8) 4. Scènes denses (des centaines d’instances coexistent) : 72,6 contre 58,4 pour SAM 3 (+14,2). L’écart pour les objets simples (L0) n’est que de +0,8, ce qui confirme la tendance à l’augmentation de la disparité avec la complexité du langage. En termes d’étalonnage de l’existence des instances (si la cible existe), SAM 3 conserve toutefois un avantage : MCC 0,82 contre 0,64. Falcon OCR compte 0,3 milliard de paramètres, réutilisant le même backbone mais entraîné depuis zéro, spécifiquement conçu pour la compréhension de documents. Il a obtenu 80,3 sur le benchmark olmOCR (à 1,7 point du top), en tête de tous les modèles testés pour les mises en page multi-colonnes (87,1 %) et l’extraction de tableaux (90,3 %) ; il a obtenu 88,64 sur OmniDocBench, dépassant des modèles avec plus de paramètres ou ceux reposant sur une infrastructure propriétaire comme DeepSeek OCR v2, GPT 5.2 et Mistral OCR 3. Selon la TII, Falcon OCR est le modèle OCR open-source à débit le plus élevé, avec un test de concurrence élevé de 5 825 tokens par seconde sur une seule A100-80GB (environ 2,9 images par seconde pour l’ensemble du processus). Les deux modèles sont désormais en open-source sur Hugging Face, avec Falcon Perception proposant un Playground en ligne.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.