Googleの最初のネイティブマルチモーダル埋め込みモデル「Gemini Embedding 2」発表:機械に「理解」させることができる

robot
概要作成中

IT之家3月11日消息,北京時間今日凌晨,Googleは新しいGemini Embedding2モデルを発表しました。これはGoogle初のネイティブなマルチモーダル埋め込みモデルであり、テキスト、画像、動画、ドキュメントを同じ埋め込み空間にマッピングすることができます。

埋め込みモデルは生成モデルとは異なります。Gemini3などの生成モデルは主にコンテンツの生成に使用されるのに対し、埋め込みモデルはデータの理解に用いられます。埋め込みモデルは、テキスト、画像、動画をベクトルなどの数学的な形式に変換し、機械による読み取りや分析を容易にします。

意味検索、分類、クラスタリングなどの方法を通じて、この種のモデルは意味関係を理解できるため、従来のキーワード検索よりもより正確で文脈に沿った情報を提供することが多いです。

IT之家によると、Googleが最初にリリースしたEmbeddingモデルはテキストのみをサポートしていました。Gemini Embedding2は、テキスト、画像、動画、音声、ドキュメントをサポートし、100言語で意味的意図を認識できます。

異なるデータタイプの処理制限は以下の通りです:

テキスト:最大8192トークンのコンテキストウィンドウ

画像:1回のリクエストで最大6枚、PNGおよびJPEG形式をサポート

動画:最大120秒の入力、MP4およびMOV形式をサポート

音声:音声データを直接処理可能、事前の文字起こしは不要

ドキュメント:最大6ページのPDFをサポート

Googleはブログで、新モデルは複雑なデータ処理の流れを簡素化し、多モーダルアプリケーションの能力を強化すると述べています。適用例には、検索強化生成(RAG)、意味検索、感情分析、データクラスタリングなどがあります。

また、モデルは一度のリクエストで「画像+テキスト」など複数の入力タイプを同時に受け取り、異なるメディア間の関係性を分析することも可能です。

Googleは例として、訴訟証拠収集の段階で、Gemini埋め込みモデルが法律専門家の迅速な重要証拠の発見を支援できると述べています。テスト結果では、数百万件の記録の中で、多モーダル埋め込みは検索の精度とリコール率を向上させるとともに、画像や動画の検索結果も改善されました。

Gemini Embeddings2(gemini-embedding-2-preview)は、現在、Gemini APIとVertex AIを通じて一般公開プレビューが提供されています。同時に、gemini-embedding-001は引き続きテキストのみの用途に利用可能です。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン