TII lanza dos modelos Falcon Vision de código abierto: la segmentación de 0.6B supera a SAM 3 con el aumento de la complejidad del idioma

2026-04-01 23:02:26

Generación de resúmenes en curso

Según el monitoreo de 1M AI News, el Instituto de Innovación Tecnológica (TII) en los Emiratos Árabes Unidos ha lanzado dos modelos de visión, Falcon Perception y Falcon OCR, en Hugging Face. Ambos modelos utilizan un único backbone Transformer de “early fusion”: los parches de imagen y los tokens de texto comparten el espacio de parámetros, con los tokens de imagen usando atención bidireccional y los tokens de texto usando atención causal, eliminando el diseño en cascada tradicional de “codificador visual + decodificador de texto”. Esto permite que los modelos comprendan de verdad las restricciones espaciales y las relaciones entre objetos en lenguaje natural, en lugar de limitarse a realizar recuperación semántica de características visuales. Falcon Perception tiene 0.6B de parámetros y está diseñado para segmentación y localización de vocabulario abierto. Logró una puntuación Macro-F1 de 68.0 en el benchmark SA-Co, superando la puntuación de Meta SAM 3, que fue 62.3. TII también lanzó el benchmark de diagnóstico PBench, que evalúa las capacidades de forma jerárquica. Falcon Perception muestra la mayor ventaja en tareas que requieren comprensión del lenguaje: 1. L2 (reconocimiento guiado por OCR, como encontrar “un biberón con la etiqueta 168”): 38.0 vs 24.6 de SAM 3 (+13.4) 2. L3 (relaciones espaciales, como “el coche negro a la izquierda” y “la tercera ventana desde la izquierda”): 53.5 vs 31.6 de SAM 3 (+21.9) 3. L4 (relaciones interactivas, como “la persona que sostiene un paraguas” y “la persona que usa un teléfono”): 49.1 vs 33.3 de SAM 3 (+15.8) 4. Escenas densas (cientos de instancias coexistiendo): 72.6 vs 58.4 de SAM 3 (+14.2). La brecha para objetos simples (L0) es solo +0.8, confirmando la tendencia de que la disparidad aumenta con la complejidad del lenguaje. En términos de calibración de existencia de instancias (si el objetivo existe), SAM 3 aún mantiene una ventaja: MCC 0.82 vs 0.64. Falcon OCR tiene 0.3B de parámetros, reutiliza el mismo backbone pero se entrena desde cero, específicamente diseñado para comprensión de documentos. Obtuvo 80.3 en el benchmark olmOCR (1.7 puntos por debajo del primer lugar), liderando a todos los modelos evaluados en diseños de múltiples columnas (87.1%) y extracción de tablas (90.3%); obtuvo 88.64 en OmniDocBench, superando a modelos con parámetros mayores o a los que dependen de infraestructura propietaria como DeepSeek OCR v2, GPT 5.2 y Mistral OCR 3. Según TII, Falcon OCR es el modelo de OCR de código abierto con mayor rendimiento, logrando una alta prueba de concurrencia de 5,825 tokens por segundo en un solo A100-80GB (aproximadamente 2.9 imágenes por segundo para el proceso completo). Ambos modelos ya están disponibles como código abierto en Hugging Face.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.