IT之家3月11日消息,北京時間今日凌晨,Googleは新しいGemini Embedding2モデルを発表しました。これはGoogle初のネイティブなマルチモーダル埋め込みモデルであり、テキスト、画像、動画、ドキュメントを同じ埋め込み空間にマッピングすることができます。埋め込みモデルは生成モデルとは異なります。Gemini3などの生成モデルは主にコンテンツの生成に使用されるのに対し、埋め込みモデルはデータの理解に用いられます。埋め込みモデルは、テキスト、画像、動画をベクトルなどの数学的な形式に変換し、機械による読み取りや分析を容易にします。意味検索、分類、クラスタリングなどの方法を通じて、この種のモデルは意味関係を理解できるため、従来のキーワード検索よりもより正確で文脈に沿った情報を提供することが多いです。IT之家によると、Googleが最初にリリースしたEmbeddingモデルはテキストのみをサポートしていました。Gemini Embedding2は、テキスト、画像、動画、音声、ドキュメントをサポートし、100言語で意味的意図を認識できます。異なるデータタイプの処理制限は以下の通りです:テキスト:最大8192トークンのコンテキストウィンドウ画像:1回のリクエストで最大6枚、PNGおよびJPEG形式をサポート動画:最大120秒の入力、MP4およびMOV形式をサポート音声:音声データを直接処理可能、事前の文字起こしは不要ドキュメント:最大6ページのPDFをサポートGoogleはブログで、新モデルは複雑なデータ処理の流れを簡素化し、多モーダルアプリケーションの能力を強化すると述べています。適用例には、検索強化生成(RAG)、意味検索、感情分析、データクラスタリングなどがあります。また、モデルは一度のリクエストで「画像+テキスト」など複数の入力タイプを同時に受け取り、異なるメディア間の関係性を分析することも可能です。Googleは例として、訴訟証拠収集の段階で、Gemini埋め込みモデルが法律専門家の迅速な重要証拠の発見を支援できると述べています。テスト結果では、数百万件の記録の中で、多モーダル埋め込みは検索の精度とリコール率を向上させるとともに、画像や動画の検索結果も改善されました。Gemini Embeddings2(gemini-embedding-2-preview)は、現在、Gemini APIとVertex AIを通じて一般公開プレビューが提供されています。同時に、gemini-embedding-001は引き続きテキストのみの用途に利用可能です。
Googleの最初のネイティブマルチモーダル埋め込みモデル「Gemini Embedding 2」発表:機械に「理解」させることができる
IT之家3月11日消息,北京時間今日凌晨,Googleは新しいGemini Embedding2モデルを発表しました。これはGoogle初のネイティブなマルチモーダル埋め込みモデルであり、テキスト、画像、動画、ドキュメントを同じ埋め込み空間にマッピングすることができます。
埋め込みモデルは生成モデルとは異なります。Gemini3などの生成モデルは主にコンテンツの生成に使用されるのに対し、埋め込みモデルはデータの理解に用いられます。埋め込みモデルは、テキスト、画像、動画をベクトルなどの数学的な形式に変換し、機械による読み取りや分析を容易にします。
意味検索、分類、クラスタリングなどの方法を通じて、この種のモデルは意味関係を理解できるため、従来のキーワード検索よりもより正確で文脈に沿った情報を提供することが多いです。
IT之家によると、Googleが最初にリリースしたEmbeddingモデルはテキストのみをサポートしていました。Gemini Embedding2は、テキスト、画像、動画、音声、ドキュメントをサポートし、100言語で意味的意図を認識できます。
異なるデータタイプの処理制限は以下の通りです:
テキスト:最大8192トークンのコンテキストウィンドウ
画像:1回のリクエストで最大6枚、PNGおよびJPEG形式をサポート
動画:最大120秒の入力、MP4およびMOV形式をサポート
音声:音声データを直接処理可能、事前の文字起こしは不要
ドキュメント:最大6ページのPDFをサポート
Googleはブログで、新モデルは複雑なデータ処理の流れを簡素化し、多モーダルアプリケーションの能力を強化すると述べています。適用例には、検索強化生成(RAG)、意味検索、感情分析、データクラスタリングなどがあります。
また、モデルは一度のリクエストで「画像+テキスト」など複数の入力タイプを同時に受け取り、異なるメディア間の関係性を分析することも可能です。
Googleは例として、訴訟証拠収集の段階で、Gemini埋め込みモデルが法律専門家の迅速な重要証拠の発見を支援できると述べています。テスト結果では、数百万件の記録の中で、多モーダル埋め込みは検索の精度とリコール率を向上させるとともに、画像や動画の検索結果も改善されました。
Gemini Embeddings2(gemini-embedding-2-preview)は、現在、Gemini APIとVertex AIを通じて一般公開プレビューが提供されています。同時に、gemini-embedding-001は引き続きテキストのみの用途に利用可能です。