TII 发布两个开源 Falcon Vision 模型:0.6B 分割性能优于 SAM 3,随着语言复杂度增加

robot
摘要生成中

据 1M AI News 的监测,位于阿联酋的技术创新研究院(Technology Innovation Institute, TII)已在 Hugging Face 发布两种视觉模型:Falcon Perception 和 Falcon OCR。两种模型都采用“早期融合(early fusion)”的单一 Transformer 主干:图像补丁与文本 token 共享参数空间;图像 token 使用双向注意力,文本 token 使用因果注意力,从而摒弃了传统的“视觉编码器 + 文本解码器”级联设计。这使得模型能够真正理解自然语言中的空间约束与物体关系,而不仅仅是对视觉特征进行语义检索。Falcon Perception 具有 0.6B 参数,面向开放词汇图像分割与定位。它在 SA-Co 基准上取得了 68.0 的 Macro-F1 分数,超越了 Meta SAM 3 的 62.3。TII 还发布了诊断基准 PBench,用于分层评估能力。Falcon Perception 在需要语言理解的任务中展现出最显著的领先:1. L2(OCR 引导识别,例如找到标注为“168”的瓶子):38.0 对比 SAM 3 的 24.6(+13.4)2. L3(空间关系,例如“左边的黑色汽车”和“从左数第三个窗口”):53.5 对比 SAM 3 的 31.6(+21.9)3. L4(交互关系,例如“拿着雨伞的人”和“使用手机的人”):49.1 对比 SAM 3 的 33.3(+15.8)4. 密集场景(数百个实例共存):72.6 对比 SAM 3 的 58.4(+14.2)。简单物体(L0)的差距仅为 +0.8,证实了随着语言复杂度增加而差异扩大的趋势。就实例存在校准(目标是否存在)而言,SAM 3 仍占优势:MCC 0.82 对比 0.64。Falcon OCR 拥有 0.3B 参数,复用同一主干,但从头训练,专为文档理解而设计。它在 olmOCR 基准上获得了 80.3(距第一名仅差 1.7 分),在多栏版式(87.1%)和表格抽取(90.3%)方面均领先所有测试模型;在 OmniDocBench 上得分为 88.64,超过了更大参数模型,或依赖专有基础设施的模型,例如 DeepSeek OCR v2、GPT 5.2 和 Mistral OCR 3。根据 TII 的说法,Falcon OCR 是最高吞吐的开源 OCR 模型:在单台 A100-80GB 上的高并发测试达到了每秒 5,825 tokens(约为完整流程每秒 2.9 张图像)。两种模型现已在 Hugging Face 开源发布,其中 Falcon Perception 提供在线 Playground。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论