✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
TII 发布两个开源 Falcon Vision 模型:0.6B 分割性能优于 SAM 3,随着语言复杂度增加
据 1M AI News 的监测,位于阿联酋的技术创新研究院(Technology Innovation Institute, TII)已在 Hugging Face 发布两种视觉模型:Falcon Perception 和 Falcon OCR。两种模型都采用“早期融合(early fusion)”的单一 Transformer 主干:图像补丁与文本 token 共享参数空间;图像 token 使用双向注意力,文本 token 使用因果注意力,从而摒弃了传统的“视觉编码器 + 文本解码器”级联设计。这使得模型能够真正理解自然语言中的空间约束与物体关系,而不仅仅是对视觉特征进行语义检索。Falcon Perception 具有 0.6B 参数,面向开放词汇图像分割与定位。它在 SA-Co 基准上取得了 68.0 的 Macro-F1 分数,超越了 Meta SAM 3 的 62.3。TII 还发布了诊断基准 PBench,用于分层评估能力。Falcon Perception 在需要语言理解的任务中展现出最显著的领先:1. L2(OCR 引导识别,例如找到标注为“168”的瓶子):38.0 对比 SAM 3 的 24.6(+13.4)2. L3(空间关系,例如“左边的黑色汽车”和“从左数第三个窗口”):53.5 对比 SAM 3 的 31.6(+21.9)3. L4(交互关系,例如“拿着雨伞的人”和“使用手机的人”):49.1 对比 SAM 3 的 33.3(+15.8)4. 密集场景(数百个实例共存):72.6 对比 SAM 3 的 58.4(+14.2)。简单物体(L0)的差距仅为 +0.8,证实了随着语言复杂度增加而差异扩大的趋势。就实例存在校准(目标是否存在)而言,SAM 3 仍占优势:MCC 0.82 对比 0.64。Falcon OCR 拥有 0.3B 参数,复用同一主干,但从头训练,专为文档理解而设计。它在 olmOCR 基准上获得了 80.3(距第一名仅差 1.7 分),在多栏版式(87.1%)和表格抽取(90.3%)方面均领先所有测试模型;在 OmniDocBench 上得分为 88.64,超过了更大参数模型,或依赖专有基础设施的模型,例如 DeepSeek OCR v2、GPT 5.2 和 Mistral OCR 3。根据 TII 的说法,Falcon OCR 是最高吞吐的开源 OCR 模型:在单台 A100-80GB 上的高并发测试达到了每秒 5,825 tokens(约为完整流程每秒 2.9 张图像)。两种模型现已在 Hugging Face 开源发布,其中 Falcon Perception 提供在线 Playground。