TII Rilis Dua Model Falcon Vision Open-Source: Segmentasi 0.6B Mengungguli SAM 3 dengan Meningkatnya Kompleksitas Bahasa

robot
Pembuatan abstrak sedang berlangsung

Berdasarkan pemantauan oleh 1M AI News, Technology Innovation Institute (TII) di Uni Emirat Arab telah merilis dua model visi, Falcon Perception dan Falcon OCR, di Hugging Face. Kedua model menggunakan satu tulang punggung Transformer ‘early fusion’ yang sama: patch gambar dan token teks berbagi ruang parameter, dengan token gambar menggunakan perhatian dua arah dan token teks menggunakan perhatian kausal, sehingga menghilangkan desain berantai tradisional ‘visual encoder + text decoder’. Hal ini memungkinkan model untuk benar-benar memahami batasan spasial dan hubungan objek dalam bahasa alami, alih-alih sekadar melakukan semantic retrieval dari fitur visual. Falcon Perception memiliki 0.6B parameter dan dirancang untuk segmentasi dan lokalisasi gambar open vocabulary. Model ini meraih skor Macro-F1 sebesar 68.0 pada benchmark SA-Co, melampaui skor Meta SAM 3 yaitu 62.3. TII juga merilis benchmark diagnostik PBench, yang mengevaluasi kemampuan secara hierarkis. Falcon Perception menunjukkan keunggulan paling signifikan pada tugas yang membutuhkan pemahaman bahasa: 1. L2 (pengenalan dipandu OCR, seperti menemukan ‘a bottle labeled 168’): 38.0 vs 24.6 milik SAM 3 (+13.4) 2. L3 (hubungan spasial, seperti ‘the black car on the left’ dan ‘the third window from the left’): 53.5 vs 31.6 milik SAM 3 (+21.9) 3. L4 (hubungan interaktif, seperti ‘the person holding an umbrella’ dan ‘the person using a phone’): 49.1 vs 33.3 milik SAM 3 (+15.8) 4. Adegan padat (ratusan instans yang hidup berdampingan): 72.6 vs 58.4 milik SAM 3 (+14.2). Kesenjangan untuk objek sederhana (L0) hanya +0.8, mengonfirmasi tren meningkatnya perbedaan seiring kompleksitas bahasa. Dalam hal kalibrasi keberadaan instans (apakah target ada), SAM 3 masih unggul: MCC 0.82 vs 0.64. Falcon OCR memiliki 0.3B parameter, menggunakan tulang punggung yang sama tetapi dilatih dari nol, secara khusus dirancang untuk pemahaman dokumen. Model ini mencetak 80.3 pada benchmark olmOCR (selisih 1.7 poin dari peringkat teratas), memimpin semua model yang diuji pada tata letak multi-kolom (87.1%) dan ekstraksi tabel (90.3%); model ini mencetak 88.64 pada OmniDocBench, melampaui model dengan parameter lebih besar atau model yang bergantung pada infrastruktur proprietari seperti DeepSeek OCR v2, GPT 5.2, dan Mistral OCR 3. Menurut TII, Falcon OCR adalah model OCR open-source dengan throughput tertinggi, mencapai uji konkurensi tinggi 5,825 token per detik pada satu A100-80GB (sekitar 2.9 gambar per detik untuk proses lengkap). Kedua model kini telah dirilis open-source di Hugging Face, dengan Falcon Perception menyediakan online Playground.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan