TII выпускает две модели Falcon Vision с открытым исходным кодом: 0.6B сегментация превосходит SAM 3 при увеличении сложности языка

robot
Генерация тезисов в процессе

Согласно мониторингу 1M AI News, Технологический институт инноваций (TII) в ОАЭ выпустил две модели зрения — Falcon Perception и Falcon OCR — на Hugging Face. Обе модели используют одну «раннюю склейку» (early fusion) с общим трансформерным остовом: изображение-вставки и текстовые токены разделяют пространство параметров, при этом токены изображения используют двунаправленное внимание, а текстовые токены — причинальное внимание, устраняя традиционный каскадный дизайн «визуальный энкодер + текстовый декодер». Это позволяет моделям действительно понимать пространственные ограничения и связи объектов в естественном языке, а не просто выполнять семантический поиск визуальных признаков. Falcon Perception имеет 0.6B параметров и предназначен для сегментации изображений и локализации с открытым словарем. Он достиг Macro-F1 68.0 на бенчмарке SA-Co, обойдя результат Meta SAM 3 — 62.3. TII также выпустил диагностический бенчмарк PBench, который оценивает возможности иерархически. Falcon Perception демонстрирует наиболее существенное преимущество в задачах, требующих понимания языка: 1. L2 (распознавание с подсказками OCR, например «найти “бутылку с маркировкой 168”»): 38.0 vs 24.6 у SAM 3 (+13.4) 2. L3 (пространственные отношения, например «черная машина слева» и «третье окно слева»): 53.5 vs 31.6 у SAM 3 (+21.9) 3. L4 (интерактивные отношения, например «человек, держащий зонт» и «человек, использующий телефон»): 49.1 vs 33.3 у SAM 3 (+15.8) 4. Плотные сцены (сотни экземпляров, сосуществующих одновременно): 72.6 vs 58.4 у SAM 3 (+14.2). Разрыв для простых объектов (L0) составляет лишь +0.8, подтверждая тенденцию к увеличению расхождения с ростом сложности языка. С точки зрения калибровки существования экземпляров (существует ли целевой объект), SAM 3 все еще сохраняет преимущество: MCC 0.82 vs 0.64. Falcon OCR имеет 0.3B параметров, использует тот же остов, но обучен с нуля, специально разработан для понимания документов. Он набрал 80.3 на бенчмарке olmOCR (на 1.7 пункта меньше лидера), возглавив все протестированные модели в многостолбцовых раскладках (87.1%) и извлечении таблиц (90.3%); также он набрал 88.64 на OmniDocBench, обойдя модели с большими параметрами или использующие проприетарную инфраструктуру вроде DeepSeek OCR v2, GPT 5.2 и Mistral OCR 3. Согласно TII, Falcon OCR — это OCR-модель с самым высоким уровнем пропускной способности с открытым исходным кодом, достигающая высокой конкарренси-оценки 5,825 токенов в секунду на одном A100-80GB (примерно 2.9 изображения в секунду для полного процесса). Обе модели теперь с открытым исходным кодом размещены на Hugging Face, при этом Falcon Perception предлагает онлайн Playground.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить