Google lanza el primer modelo de incrustación multimodal nativa Gemini Embedding 2

robot
Generación de resúmenes en curso

El 10 de marzo de 2023, Google DeepMind lanzó Gemini Embedding 2, su primer modelo de incrustación multimodal nativo, que unifica texto, imágenes, videos, audio y documentos en un solo espacio de incrustación, marcando una nueva etapa en la integración de tecnologías de embedding de IA en todos los modos.

Gemini Embedding 2 soporta la comprensión semántica en más de 100 idiomas y supera a los modelos principales existentes en pruebas de referencia en tareas de texto, imagen y video, además de introducir capacidades de procesamiento de voz que anteriormente faltaban en los modelos de embedding.

Este modelo ya está disponible en fase de vista previa pública a través de Gemini API y Vertex AI, permitiendo a los desarrolladores acceder de inmediato.

Para los usuarios empresariales, el lanzamiento de este modelo reduce directamente la barrera técnica para construir sistemas de recuperación mejorada con generación (RAG), búsqueda semántica y clasificación de datos, y puede simplificar los complejos pipelines de datos que antes requerían procesamiento cruzado de múltiples modos.

Unificación multimodal: de texto a cinco tipos de medios

Gemini Embedding 2 está construido sobre la arquitectura Gemini, ampliando la capacidad de embedding desde solo texto a cinco tipos de entrada:

  • Texto soporta hasta 8192 tokens de entrada;
  • Imágenes permite procesar hasta 6 por solicitud, en formatos PNG y JPEG;
  • Videos soporta archivos MP4 y MOV de hasta 120 segundos de duración;
  • Audio puede ser ingresado directamente y generar vectores de embedding sin necesidad de transcripción intermedia;
  • Documentos soporta archivos PDF de hasta 6 páginas para su embedding directo.

A diferencia de los métodos tradicionales que procesan un solo modo a la vez, este modelo soporta entradas entrelazadas, es decir, que en una sola solicitud se pueden enviar combinaciones de imágenes, texto y otros modos, permitiendo que el modelo capture relaciones semánticas complejas y sutiles entre diferentes tipos de medios.


Gemini Embedding 2 continúa utilizando la técnica de aprendizaje de representación Matryoshka (MRL) que Google empleó en modelos de embedding anteriores. Esta técnica comprime dinámicamente la dimensión del vector mediante “anidamiento”, permitiendo reducir la dimensión de salida desde el valor predeterminado de 3072 de manera flexible, ayudando a los desarrolladores a equilibrar rendimiento del modelo y costos de almacenamiento.

Liderazgo en pruebas de referencia y nueva capacidad de voz

Google afirma que Gemini Embedding 2 supera a los modelos competidores principales en pruebas de referencia en tareas de texto, imagen y video, estableciéndose como un nuevo estándar de rendimiento en el campo de embeddings multimodales.

Google recomienda a los desarrolladores seleccionar entre dimensiones de 3072, 1536 o 768 según el escenario de aplicación, para obtener la mejor calidad de embedding. Este diseño es especialmente importante para empresas que necesitan desplegar grandes volúmenes de vectores de embedding, ya que permite controlar eficazmente los costos de infraestructura sin sacrificar significativamente la precisión.

En términos de capacidades, el modelo incorpora por primera vez la capacidad nativa de embedding de voz, que anteriormente era ausente en modelos similares, permitiendo procesar audio directamente sin necesidad de transcribirlo a texto.

Google señala que la tecnología de embedding ya se aplica ampliamente en varios de sus productos, incluyendo escenarios de ingeniería de contexto en RAG, gestión de grandes volúmenes de datos y en búsquedas y análisis tradicionales.

Actualmente, algunos socios de acceso temprano ya están desarrollando aplicaciones multimodales basadas en Gemini Embedding 2, y Google afirma que estos casos están demostrando el potencial real del modelo en escenarios de alto valor.

Advertencias de riesgo y términos de exención de responsabilidad

El mercado tiene riesgos, invierta con precaución. Este artículo no constituye asesoramiento de inversión personal ni considera los objetivos, situación financiera o necesidades específicas de ningún usuario. Los usuarios deben evaluar si las opiniones, puntos de vista o conclusiones aquí presentados son adecuados para su situación particular. La inversión se realiza bajo su propio riesgo.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado