TII phát hành hai mô hình Falcon Vision mã nguồn mở: 0.6B phân đoạn vượt trội hơn SAM 3 khi độ phức tạp của ngôn ngữ tăng lên

robot
Đang tạo bản tóm tắt

Theo bản tin giám sát của 1M AI News, Viện Công nghệ Đổi mới (TII) tại UAE đã phát hành hai mô hình tầm nhìn, Falcon Perception và Falcon OCR, trên Hugging Face. Cả hai mô hình đều sử dụng một backbone Transformer kiểu “early fusion”: các mảnh ảnh và token văn bản chia sẻ không gian tham số, trong đó token ảnh dùng attention hai chiều và token văn bản dùng attention nhân quả, loại bỏ thiết kế xếp tầng truyền thống “bộ mã hóa hình ảnh + bộ giải mã văn bản”. Điều này cho phép các mô hình thực sự hiểu các ràng buộc không gian và quan hệ đối tượng trong ngôn ngữ tự nhiên, thay vì chỉ đơn thuần thực hiện truy xuất ngữ nghĩa các đặc trưng thị giác. Falcon Perception có 0.6B tham số và được thiết kế cho phân đoạn và định vị theo từ vựng mở. Nó đạt điểm Macro-F1 là 68.0 trên benchmark SA-Co, vượt điểm của Meta SAM 3 là 62.3.

TII cũng phát hành benchmark chẩn đoán PBench, đánh giá năng lực theo cấp bậc. Falcon Perception cho thấy mức dẫn đầu đáng kể nhất trong các tác vụ yêu cầu hiểu ngôn ngữ: 1. L2 (nhận dạng được dẫn dắt bởi OCR, chẳng hạn như tìm “a bottle labeled 168”): 38.0 so với 24.6 của SAM 3 (+13.4) 2. L3 (quan hệ không gian, chẳng hạn như “the black car on the left” và “the third window from the left”): 53.5 so với 31.6 của SAM 3 (+21.9) 3. L4 (quan hệ tương tác, chẳng hạn như “the person holding an umbrella” và “the person using a phone”): 49.1 so với 33.3 của SAM 3 (+15.8) 4. Cảnh dày đặc (hàng trăm thể hiện cùng tồn tại): 72.6 so với 58.4 của SAM 3 (+14.2). Khoảng cách đối với các đối tượng đơn giản (L0) chỉ là +0.8, xác nhận xu hướng khoảng cách tăng dần khi độ phức tạp ngôn ngữ tăng lên. Về hiệu chuẩn tồn tại thể hiện (liệu mục tiêu có tồn tại hay không), SAM 3 vẫn giữ lợi thế: MCC 0.82 so với 0.64. Falcon OCR có 0.3B tham số, tái sử dụng cùng backbone nhưng được huấn luyện từ đầu, được thiết kế cụ thể cho hiểu tài liệu. Nó đạt 80.3 trên benchmark olmOCR (cách 1.7 điểm so với vị trí top), dẫn đầu tất cả các mô hình được thử nghiệm trong bố cục nhiều cột (87.1%) và trích xuất bảng (90.3%); nó đạt 88.64 trên OmniDocBench, vượt các mô hình có tham số lớn hơn hoặc các mô hình dựa trên hạ tầng độc quyền như DeepSeek OCR v2, GPT 5.2 và Mistral OCR 3.

Theo TII, Falcon OCR là mô hình OCR mã nguồn mở có thông lượng cao nhất, đạt thử nghiệm song song cao là 5.825 tokens mỗi giây trên một A100-80GB (xấp xỉ 2.9 hình ảnh mỗi giây cho toàn bộ quy trình). Cả hai mô hình hiện đã được công bố mã nguồn mở trên Hugging Face, với Falcon Perception cung cấp một Playground trực tuyến.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim