El modelo pequeño genera JSON directamente, la extracción de documentos en el lado del cliente finalmente ya no requiere escribir un pequeño ensayo antes de analizar, con 450M puede correr bastante bien

Ver original
CoinNetwork
Liquid AI modelo multimodal de pequeño tamaño de código abierto: extraer directamente las imágenes en el lado del dispositivo como datos estructurados en JSON
Liquid AI lanza dos modelos multimodales de tamaño reducido, lfm2.5-vl-1.6b-extract y lfm2.5-vl-450m-extract, optimizados para la extracción de datos estructurados de imágenes, capaces de convertir directamente las imágenes en JSON en el dispositivo siguiendo una lista de campos, eliminando la necesidad de generación y análisis de texto completo. Ofrecen versiones de 1.6b y 450m, siguiendo la licencia abierta lf open license v1.0. Los evaluaciones oficiales muestran un rendimiento sobresaliente en escaneo de documentos, comprensión de cabinas de vehículos y detección industrial; en pruebas de referencia, el de 1.6b iguala a modelos generales de 4b, y el de 450m equivale a un modelo de 2b. Ya están disponibles para descarga en Hugging Face con pesos abiertos.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado