Google presenta Gemini Omni—Un creador de videos de IA de próxima generación que puede 'simular el mundo'

En resumen

* Google presentó Gemini Omni en I/O 2026 como un modelo de IA multimodal diseñado para generar videos y otros medios a partir de casi cualquier entrada.
* El CEO de DeepMind, Demis Hassabis, dijo que Gemini Omni combina Gemini con modelos de generación de medios, incluyendo Veo, Nano Banana y Genie.
* Gemini Omni Flash se lanzará primero a través de Flow y Flow Music para los suscriptores de Google AI.

Google anunció el martes Gemini Omni, un nuevo modelo de IA multimodal que combina los modelos de IA Gemini de la compañía con sus herramientas de generación de medios, incluyendo Veo, Nano Banana y Genie.
El anuncio se realizó durante Google I/O 2026, donde el CEO de DeepMind, Demis Hassabis, describió Gemini Omni como “nuestro nuevo modelo que puede crear cualquier cosa a partir de cualquier entrada.”
“Combina la inteligencia de Gemini con lo mejor de nuestros modelos generativos de medios para un nuevo nivel de comprensión del mundo, multimodalidad y edición,” dijo Hassabis.

Google afirmó que la primera versión, Gemini Omni Flash, se lanzará a través de Flow, la plataforma de creación de películas con IA de la compañía, y Flow Music, que se centra en la creación musical asistida por IA.

> Estamos lanzando Gemini Omni: nuestro primer paso hacia un modelo que puede crear cualquier cosa a partir de cualquier cosa - comenzando con video.
>
> Combina la inteligencia de Gemini con nuestros sistemas generativos de medios - representando un avance en la comprensión del mundo, multimodalidad y edición 🧵 pic.twitter.com/GAtqzr0VIV
>
> — Google DeepMind (@GoogleDeepMind) 19 de mayo de 2026

Al llamar a Omni un “paso hacia la inteligencia artificial general,” Hassabis dijo que Google ha pasado el último año extendiendo Gemini hacia “un modelo de IA de mundo que puede entender y simular el mundo.”
El despliegue de Omni de Google se basa en la popularidad de Nano Banana, el modelo anterior de IA para edición de imágenes de la compañía que ayudó a impulsar a Gemini a la cima de la App Store de Apple en septiembre pasado. Nano Banana se volvió ampliamente utilizado para la generación de memes y la edición de imágenes conversacional, ayudando brevemente a Gemini a superar a ChatGPT en descargas de aplicaciones e interés en búsquedas en Google por primera vez desde que el chatbot de OpenAI se lanzó en 2022.

En la comparación de Decrypt a principios de este mes, Nano Banana 2 superó a GPT Image 2 de OpenAI en pruebas de ilustración de anime y composición espacial, mientras que el modelo de OpenAI tuvo mejor rendimiento en fotorealismo y renderizado de texto. Google ahora parece estar extendiendo muchas de esas funciones de edición a videos a través de Gemini Omni.

Durante la presentación, Google demostró cómo Omni genera un video educativo al estilo de animación con arcilla explicando el plegamiento de proteínas. La compañía también mostró herramientas de edición conversacional que modificaron un video selfie añadiendo nuevos elementos visuales y cambiando el entorno circundante.
Google dice que Omni puede mantener los mismos personajes, fondos y movimientos consistentes incluso después de que los usuarios hagan cambios en un video—algo con lo que muchos modelos de IA para videos tienen dificultades. La compañía también afirma que Omni usa las habilidades de razonamiento de Gemini para entender instrucciones más amplias, de modo que los usuarios puedan describir el tipo de escena que desean sin explicar manualmente cada detalle.
La compañía también presentó Flow Agent, un asistente de IA integrado en Google Flow que puede generar ideas para escenas, organizar recursos, recomendar cambios en la trama y editar en lote proyectos.
Las actualizaciones adicionales incluyen Flow Tools, que permite a los usuarios crear flujos de trabajo de edición personalizados usando indicaciones en lenguaje natural sin experiencia en programación.
Hassabis dijo que Google comienza con la generación de videos, pero planea ampliar el acceso a Omni, describiéndolo como la visión a largo plazo detrás del diseño multimodal de Gemini.
“Este siempre fue nuestro objetivo con Gemini, y por eso lo construimos para ser multimodal desde el principio,” afirmó.

Google no respondió de inmediato a una solicitud de comentario de Decrypt.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado