TII lança dois modelos Falcon Vision de código aberto: 0,6B de segmentação supera o SAM 3 com o aumento da complexidade linguística

robot
Geração de resumo em curso

De acordo com a monitorização da 1M AI News, o Technology Innovation Institute (TII) nos EAU lançou dois modelos de visão, Falcon Perception e Falcon OCR, no Hugging Face. Ambos os modelos utilizam uma única espinha dorsal Transformer de “early fusion”: patches de imagem e tokens de texto partilham o espaço de parâmetros, com os tokens de imagem a usar atenção bidirecional e os tokens de texto a usar atenção causal, eliminando o desenho em cascata tradicional de “encoder visual + decoder de texto”. Isto permite que os modelos compreendam verdadeiramente restrições espaciais e relações entre objetos em linguagem natural, em vez de apenas efetuarem recuperação semântica de características visuais. O Falcon Perception tem 0.6B de parâmetros e foi concebido para segmentação e localização com vocabulário aberto em imagens. Alcançou uma pontuação Macro-F1 de 68.0 no benchmark SA-Co, ultrapassando a pontuação do Meta SAM 3, 62.3. A TII também lançou o benchmark de diagnóstico PBench, que avalia capacidades de forma hierárquica. O Falcon Perception apresenta a maior vantagem em tarefas que exigem compreensão de linguagem: 1. L2 (reconhecimento guiado por OCR, como encontrar “a bottle labeled 168”): 38.0 vs 24.6 do SAM 3 (+13.4) 2. L3 (relações espaciais, como “the black car on the left” e “the third window from the left”): 53.5 vs 31.6 do SAM 3 (+21.9) 3. L4 (relações interativas, como “the person holding an umbrella” e “the person using a phone”): 49.1 vs 33.3 do SAM 3 (+15.8) 4. Cenários densos (centenas de instâncias coexistindo): 72.6 vs 58.4 do SAM 3 (+14.2). A diferença para objetos simples (L0) é apenas +0.8, confirmando a tendência de aumentar a discrepância com a complexidade da linguagem. Em termos de calibração da existência de instâncias (se o alvo existe), o SAM 3 continua a ter vantagem: MCC 0.82 vs 0.64. O Falcon OCR tem 0.3B de parâmetros, reutilizando a mesma espinha dorsal mas treinado desde o zero, especificamente concebido para compreensão de documentos. Ficou com 80.3 no benchmark olmOCR (1.7 pontos abaixo do topo), liderando todos os modelos testados em layouts de várias colunas (87.1%) e extração de tabelas (90.3%); obteve 88.64 no OmniDocBench, ultrapassando modelos com parâmetros maiores ou os que dependem de infraestrutura proprietária como DeepSeek OCR v2, GPT 5.2 e Mistral OCR 3. Segundo a TII, o Falcon OCR é o modelo de OCR open-source de maior débito (throughput), atingindo um teste de concorrência elevado de 5,825 tokens por segundo num único A100-80GB (aproximadamente 2.9 imagens por segundo para o processo completo). Ambos os modelos estão agora open-sourced no Hugging Face, com o Falcon Perception a disponibilizar um Playground online.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar