Liquid AI відкритий малий мультимодальний модель: безпосередньо на стороні пристрою витягує зображення у структуровані дані JSON

robot
Генерація анотацій у процесі
Згідно з моніторингом Beating, Liquid AI відкрила два невеликі мультимодальні моделі LFM2.5-VL-1.6B-Extract та LFM2.5-VL-450M-Extract. Нові моделі спеціально оптимізовані для витягання структурованих даних з зображень і можуть безпосередньо перетворювати зображення у формат JSON на стороні пристрою за списком вказаних користувачем полів, що позбавляє від необхідності додаткового аналізу після генерації повного тексту традиційною мультимодальною моделлю.

Нові моделі пропонуються у двох конфігураціях з 1,6 мільярда (1.6B) та 450 мільйонів (450M) параметрів, випущені за ліцензією LFM Open License v1.0. Офіційні оцінки показують, що нові моделі демонструють високі результати у сценаріях сканування документів, розуміння салону автомобіля та промислового контролю. У бенчмарках модель з 1,6B параметрів може конкурувати з універсальними мультимодальними моделями рівня 4B, а модель з 450M — з моделями рівня 2B.

На рівні розгортання нові моделі адаптовані для різних типів розумних апаратів та чіпів краєвих пристроїв (SoC), їх можна запускати офлайн у сценаріях розуміння салону автомобіля, сканування документів та промислового контролю. Liquid AI вже відкрила завантаження ваг моделей на платформі Hugging Face.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено