小モデルは直接JSONを出力し、端末側のドキュメント抽出はついに小さな文章を書いてから解析する必要がなくなった。450Mで十分に動作できて快適だ。

原文表示
CoinNetwork
Liquid AIオープンソースの小型多モーダルモデル:端末側で直接画像をJSON構造化データに抽出
Liquid AIは、画像構造化データ抽出に最適化された2つの小型多モーダルモデル、lfm2.5-vl-1.6b-extractとlfm2.5-vl-450m-extractをオープンソースで提供しています。これらは、フィールドリストに基づいてデバイス上で画像を直接JSONに変換でき、全文生成と解析のステップを省略します。1.6bと450mの2つのバージョンを提供し、lfmオープンライセンスv1.0に準拠しています。公式評価では、ドキュメントスキャン、車載キャビン理解、工業検査などのシナリオで優れた性能を示し、ベンチマークテストでは1.6bが4bの汎用モデルに匹敵し、450mは2bモデルに相当します。現在、Hugging Faceで重みのダウンロードが可能です。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし