Microsoft y Google lanzan nuevos modelos de IA el mismo día: capacidades de voz, imagen y código abierto local en acción

robot
Generación de resúmenes en curso

Microsoft y Google anunciaron el jueves que lanzarán nuevos modelos de IA, pero las diferencias entre ambos son evidentes: Microsoft publicó un nuevo modelo base, MAI, que solo está disponible a través de su plataforma Azure Foundry y el MAI Playground, disponible únicamente en EE. UU.; mientras que Google presentó un nuevo modelo de código abierto, Gemma 4, que puede ejecutarse localmente. Además, Google cambió las licencias de estos nuevos modelos de código abierto a Apache 2.0.

Tres modelos MAI “de nivel mundial” desarrollados internamente

Los modelos MAI “de nivel mundial” desarrollados internamente por Microsoft incluyen, en total, tres:

En primer lugar está MAI-Transcribe-1, un modelo de reconocimiento de voz a texto “de última generación” que puede comprender 25 de los idiomas más utilizados en todo el mundo. Su velocidad de transcripción en lote es 2,5 veces superior a la solución Azure Fast de Microsoft existente.

En segundo lugar está MAI-Voice-1, un nuevo modelo de generación de voz que puede generar audio de 60 segundos con solo 1 segundo. Además, también admite la creación de voces personalizadas en Microsoft Foundry a través de muestras de audio cortas.

Por último está MAI-Image-2, un modelo de texto a imagen más rápido que ya ha empezado a implementarse en Copilot y que, a continuación, se irá aplicando de forma progresiva en Bing y PowerPoint.

Microsoft afirma:

“Estamos desplegando rápidamente estos modelos de primer nivel para respaldar nuestros productos de consumo y empresariales. Muy pronto verás más modelos en Foundry y en toda clase de productos y experiencias de Microsoft.”

El modelo de código abierto Gemma 4 de Google

El modelo de código abierto Gemma 4 de Google utiliza una licencia Apache 2.0 y ya no emplea el anterior acuerdo de licencia personalizado de Gemma. Google afirma que estos modelos cuentan con capacidades avanzadas de razonamiento, flujos de trabajo tipo agente, generación de código y capacidades de generación de visión y audio, y que ofrecen cuatro versiones diferentes, optimizadas para la ejecución local, incluso con posibilidad de ejecutarse en “decenas de miles de millones de dispositivos Android”.

Google afirma:

“Gemma 4 se basa en el mismo nivel mundial de investigación y tecnología que Gemini 3. Es, hoy por hoy, una de las series de modelos con mayor capacidad que puedes ejecutar localmente en hardware. Son complementarios a nuestros modelos Gemini y ofrecen a los desarrolladores la combinación de herramientas de código abierto y propietarias más potente de la industria.”

Entre ellos, los modelos Gemma 4 de 26B y 31B, de mayor escala, están pensados para ejecutarse en GPU de consumo, y se pueden utilizar para impulsar IDE, asistentes de programación y flujos de trabajo tipo agente. En cambio, las versiones más ligeras E2B y E4B se centran más en las capacidades multimodales y el procesamiento de baja latencia, y resultan adecuadas para dispositivos móviles y dispositivos de IoT (incluida la Raspberry Pi). Estos modelos también admiten ejecución 100% sin conexión.

El modelo de código abierto Gemma 4 de Google puede descargarse en varias plataformas, incluidas Hugging Face, Kaggle y Ollama. Google subraya:

“En cuanto a seguridad de infraestructura, estos modelos siguen los mismos rigurosos protocolos de seguridad que nuestros modelos propietarios.”

Más noticias, en actualización continua

Aviso de riesgos y cláusulas de exención de responsabilidad

        El mercado implica riesgos; invierte con prudencia. Este artículo no constituye asesoramiento de inversión personal, y tampoco ha considerado los objetivos de inversión específicos de usuarios concretos, su situación financiera o sus necesidades. Los usuarios deben considerar si cualesquiera opiniones, puntos de vista o conclusiones contenidas en este artículo se ajustan a su situación específica. En consecuencia, la inversión es bajo su propia responsabilidad.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado