TII випустила дві відкриті моделі Falcon Vision: 0.6B сегментація перевершує SAM 3 з ускладненням мови

robot
Генерація анотацій у процесі

За моніторингом 1M AI News, Інститут інновацій у технологіях (TII) в ОАЕ випустив дві візійні моделі, Falcon Perception і Falcon OCR, на Hugging Face. Обидві моделі використовують одну єдину трансформерну магістраль «early fusion»: зображувальні патчі та текстові токени ділять параметрний простір, причому зображувальні токени використовують двонапрямну увагу, а текстові токени — причинальну (causal) увагу, усуваючи традиційний каскадний дизайн «візуальний енкодер + текстовий декодер». Це дозволяє моделям справді розуміти просторові обмеження та зв’язки об’єктів природною мовою, а не просто виконувати семантичний пошук візуальних ознак. Falcon Perception має 0.6B параметрів і призначена для сегментації та локалізації з відкритим словником. Вона досягла Macro-F1 68.0 на бенчмарку SA-Co, випередивши Meta SAM 3, чиє значення становить 62.3. TII також випустив діагностичний бенчмарк PBench, який оцінює можливості ієрархічно. Falcon Perception демонструє найбільш істотний відрив у завданнях, що потребують розуміння мови: 1. L2 (розпізнавання під керуванням OCR, наприклад пошук «пляшки з етикеткою 168»): 38.0 проти SAM 3’s 24.6 (+13.4) 2. L3 (просторові взаємовідносини, наприклад «чорний автомобіль ліворуч» і «третє вікно зліва»): 53.5 проти SAM 3’s 31.6 (+21.9) 3. L4 (інтерактивні взаємовідносини, наприклад «людина, що тримає парасольку» і «людина, що використовує телефон»): 49.1 проти SAM 3’s 33.3 (+15.8) 4. Щільні сцени (сотні екземплярів співіснують): 72.6 проти SAM 3’s 58.4 (+14.2). Прогалина для простих об’єктів (L0) становить лише +0.8, підтверджуючи тенденцію до зростання розриву зі зростанням складності мови. Щодо калібрування існування екземпляра (чи існує ціль), SAM 3 усе ще має перевагу: MCC 0.82 проти 0.64. Falcon OCR має 0.3B параметрів, повторно використовує ту саму магістраль, але навчена з нуля, спеціально розроблена для розуміння документів. Вона набрала 80.3 на бенчмарку olmOCR (відставання на 1.7 бала від лідера), випереджаючи всі протестовані моделі в макетах із багатьма колонками (87.1%) та витяганні таблиць (90.3%); вона набрала 88.64 на OmniDocBench, випередивши більші за параметрами моделі або ті, що покладаються на власну інфраструктуру на кшталт DeepSeek OCR v2, GPT 5.2 та Mistral OCR 3. За даними TII, Falcon OCR є найвищопродуктивною моделлю OCR з відкритим кодом, досягаючи високого показника конкурентності 5,825 токенів за секунду на одному A100-80GB (приблизно 2.9 зображення за секунду для повного процесу). Обидві моделі тепер мають відкритий код на Hugging Face: Falcon Perception пропонує онлайн Playground.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити