テザー、ベンチマークテストでGoogleのモデルを上回るオンデバイス医療AIを開始

テザーのAI研究グループは、スマートフォンやウェアラブルなどの低電力デバイスで直接動作するように設計された、専門的なテキスト専用医療言語モデルであるQVAC MedPsy-1.7BとMedPsy-4Bをリリースしました。

チームによると、これらのモデルはさまざまなベンチマークでGoogleの医療AIシステムを含む一部の大規模医療AIシステムを上回り、医療推論や知識タスクにおいてははるかに大きなシステムと同等の性能を発揮しながら、完全なローカル実行とプライバシーを維持しています。

医療分野の従来のAIシステムは、大規模なクラウドホスティングモデルに依存しており、患者記録や診断入力などの敏感なデータを外部サーバーに送信する必要があり、プライバシーやコンプライアンスのリスクを生じさせています。このアーキテクチャは、医療AIセクターが現在の約360億ドルから2033年までに5000億ドルを超える可能性があると予測される中で、ますます圧力を受けています。

テザーのチームは、QVAC MedPsyが効率性に焦点を当てることでスケーリングのパラダイムに挑戦していると述べています。

1.7Bモデルはスマートフォンに適しています。この小型バージョンは、7つの標準的な医療ベンチマークで62.62を記録し、研究者によると、そのサイズは半分以下ながらGoogleのMedGemma-1.5-4B-itを11ポイント以上上回っています。また、HealthBench Hardのような実世界の臨床タスクでもMedGemma 27Bを上回る性能を示しました。

4Bバージョンのモデルは同じテストで70.54を記録し、ほぼ7倍大きいMedGemma-27Bを上回りました。HealthBench、HealthBench Hard、MedXpertQAで優れたパフォーマンスを発揮しています。

これらの結果は、監督、キュレーションされた臨床推論データ、強化学習を組み合わせた段階的な医療訓練によって支えられるMedQA、MedMCQA、MMLU Health、PubMedQA、AfriMedQA、MedXpertQA、HealthBenchを含む8つのベンチマークセットに及びます。

「QVAC MedPsyでは、モデルの規模を拡大するのではなく、効率性の向上に焦点を当てました」とテザーのCEOパオロ・アルドイノはリリースについてコメントしました。

これらのモデルは、研究者によると、知的であるだけでなく非常に実用的です。短くても完全な回答を迅速に返し、時間とバッテリーの節約につながります。使いやすい圧縮フォーマットで提供されており、モバイルデバイスに快適に収まりながらも、品質をほとんど損なうことなく動作します。

技術的には、4Bモデルは約909トークンの応答を生成し、同等のシステムの約2,953トークンと比較して3.2倍の削減となっています。1.7Bモデルは平均約1,110トークンで、1,901トークンと比較して1.7倍の出力削減を実現しています。

両モデルとも、圧縮されたGGUFフォーマットでリリースされており、サイズはそれぞれ約1.2GBと2.6GBです。

「この組み合わせは、計算要件、遅延、コストを直接削減するため重要です。これにより、リモートインフラに頼ることなく、標準的なハードウェア上でローカルにモデルを動作させることが可能になります」とアルドイノは付け加えました。「医療分野では、それが制約を完全に変えるのです。データが既に存在する病院システムやデバイス内で医療推論を実行でき、クラウドを通じて敏感な情報を移動させたり外部処理を待つ必要がなくなります。」

これらのモデルは現在、Hugging Faceのオープンライセンスの下で無料で利用可能です。

                    **開示:**この記事はヴィヴィアン・グエンによって編集されました。コンテンツの作成とレビュー方法の詳細については、私たちの編集方針をご覧ください。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン