Liquid AI — небольшой открытый мультимодальный модель: извлечение изображений прямо на стороне устройства в виде структурированных данных JSON

robot
Генерация тезисов в процессе
Согласно мониторингу Beating, Liquid AI выпустила два небольших мультимодальных модели: LFM2.5-VL-1.6B-Extract и LFM2.5-VL-450M-Extract. Новые модели специально оптимизированы для извлечения структурированных данных из изображений и могут напрямую преобразовывать изображения в формат JSON на устройстве по заданному пользователем списку полей, что исключает необходимость второго анализа после генерации текста традиционной мультимодальной моделью.

Новые модели доступны в двух конфигурациях: 1,6 миллиарда (1.6B) и 450 миллионов (450M) параметров, выпущены по лицензии LFM Open License v1.0. Официальные оценки показывают, что новые модели демонстрируют отличные результаты в сценариях сканирования документов, понимания салона автомобиля и промышленного контроля. В бенчмарках модель с 1,6 миллиарда параметров по производительности сопоставима с универсальными мультимодальными моделями уровня 40 миллиардов (4B), а модель с 450 миллионами — с моделями уровня 20 миллиардов (2B).

На уровне развертывания новые модели адаптированы для различных видов интеллектуального оборудования и чипов периферийных устройств (SoC), что позволяет осуществлять офлайн-развертывание в сценариях понимания салона автомобиля, сканирования документов и промышленного контроля. Liquid AI уже предоставила возможность загрузки весов моделей на платформе Hugging Face.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено