Liquid AI mô hình đa phương thức nhỏ mã nguồn mở: Trực tiếp trích xuất hình ảnh thành dữ liệu có cấu trúc JSON trên thiết bị cuối

robot
Đang tạo bản tóm tắt
Theo giám sát Beating, Liquid AI đã mở nguồn hai mô hình đa phương thức nhỏ gọn LFM2.5-VL-1.6B-Extract và LFM2.5-VL-450M-Extract. Mô hình mới được tối ưu hóa đặc biệt cho việc trích xuất dữ liệu cấu trúc hình ảnh, có thể chuyển đổi hình ảnh thành dữ liệu định dạng JSON trực tiếp trên thiết bị dựa trên danh sách các trường do người dùng chỉ định, loại bỏ bước phân tích lại sau khi mô hình đa phương thức truyền thống tạo ra toàn bộ văn bản.

Mô hình mới cung cấp hai loại thông số là 1,6 tỷ (1.6B) và 450 triệu (450M), được phát hành theo giấy phép LFM Open License v1.0. Đánh giá chính thức cho thấy mô hình mới thể hiện xuất sắc trong các tình huống như quét tài liệu, hiểu biết cabin xe và kiểm tra công nghiệp. Trong các bài kiểm tra chuẩn, mô hình 1,6B có hiệu năng cạnh tranh với các mô hình đa phương thức chung cấp độ 40 tỷ (4B), còn mô hình 450M thì có thể so sánh với các mô hình cấp độ 20 tỷ (2B).

Về mặt triển khai, mô hình mới đã được thích nghi với các loại phần cứng thông minh và chip thiết bị biên (SoC), có thể triển khai ngoại tuyến trong các tình huống như hiểu biết cabin xe, quét tài liệu và kiểm tra công nghiệp. Liquid AI hiện đã mở tải trọng mô hình trên nền tảng Hugging Face.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim