o google acabou de se tornar silenciosamente a única empresa capaz de gerar texto, imagens, vídeo E música dentro de uma única aplicação.
lyria 3 foi lançada hoje. aqui está o porquê de isso importar mais do que as pessoas pensam. o quadro de pontuação multimodal neste momento: Google Gemini: texto ✅ imagens ✅ vídeo ✅ música ✅ OpenAI: texto ✅ imagens ✅ vídeo ✅ música ❌ (chegando) Meta: texto ✅ imagens ✅ vídeo ✅ música ❌ Anthropic: texto ✅ imagens ❌ vídeo ❌ música ❌ o google acabou de marcar todas as caixas primeiro. lyria 3 faz texto para faixas, imagem para faixas, e vídeo para faixas. canções de 30 segundos com letras personalizadas. você envia uma foto do seu cão e ele escreve uma música sobre o seu cão. idiota? talvez. mas é assim que a adoção começa. as startups dedicadas a IA de música devem estar prestando atenção. suno gera $200M/ano de receita. levantou capital a $2,45B. 100M de usuários em 2 anos. udio fechou acordo com universal e warner. elevenlabs lançou geração de música e atingiu $200M ARR. mas o google acabou de tornar a geração de música gratuita dentro de um aplicativo que bilhões de pessoas já usam. este é o movimento de agrupamento que mata startups. lembra quando aplicativos independentes de geração de imagens temiam que o dall-e fosse incorporado ao chatgpt? mesma estratégia. o recurso sempre supera o produto quando a distribuição é 1000x maior. hoje a lyria 3 é um brinquedo de 30 segundos. suno oferece stems, inpainting, faixas de 15 minutos, personas vocais. sem comparação em qualidade agora. mas o suno tinha a mesma vantagem sobre o primeiro modelo de música do google. depois v2. depois v3. a diferença se fecha a cada versão. a openai também está construindo um. fez parceria com estudantes da Juilliard para anotar dados de treinamento. um novo modelo de áudio deve chegar até março. mas "esperado" e "enviado" são palavras diferentes. o google enviou hoje. o movimento deles é o mesmo que o do google. agrupar tudo em uma única conversa. "faça um vídeo sobre X. agora adicione música. agora escreva a legenda." esse é o produto. não um gerador de música. um gerador de tudo. a linha do tempo da modalidade conta toda a história: 2022: geração de texto (todo mundo se apressa) 2023: geração de imagem (midjourney explode) 2024: geração de vídeo (sora, runway, kling) 2025: geração de música (suno atinge $200M) 2026: tudo isso. em um aplicativo. a partir de um único comando. a corrida não é sobre quem tem a melhor IA de música. ou a melhor IA de imagem. ou a melhor IA de vídeo. é sobre quem os reúne todos primeiro de uma forma que pareça natural. o google acabou de assumir a liderança. o que estou acompanhando a seguir: a openai lança música antes do Q2? a receita do suno se mantém quando o google disponibiliza geração de música grátis? quão rápido o "brinquedo de 30 segundos" se torna uma "ferramenta de produção de 3 minutos"? a corrida multimodal acabou de ganhar uma nova linha de chegada.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
o google acabou de se tornar silenciosamente a única empresa capaz de gerar texto, imagens, vídeo E música dentro de uma única aplicação.
lyria 3 foi lançada hoje. aqui está o porquê de isso importar mais do que as pessoas pensam.
o quadro de pontuação multimodal neste momento:
Google Gemini: texto ✅ imagens ✅ vídeo ✅ música ✅
OpenAI: texto ✅ imagens ✅ vídeo ✅ música ❌ (chegando)
Meta: texto ✅ imagens ✅ vídeo ✅ música ❌
Anthropic: texto ✅ imagens ❌ vídeo ❌ música ❌
o google acabou de marcar todas as caixas primeiro.
lyria 3 faz texto para faixas, imagem para faixas, e vídeo para faixas. canções de 30 segundos com letras personalizadas. você envia uma foto do seu cão e ele escreve uma música sobre o seu cão.
idiota? talvez. mas é assim que a adoção começa.
as startups dedicadas a IA de música devem estar prestando atenção.
suno gera $200M/ano de receita. levantou capital a $2,45B. 100M de usuários em 2 anos. udio fechou acordo com universal e warner. elevenlabs lançou geração de música e atingiu $200M ARR.
mas o google acabou de tornar a geração de música gratuita dentro de um aplicativo que bilhões de pessoas já usam.
este é o movimento de agrupamento que mata startups.
lembra quando aplicativos independentes de geração de imagens temiam que o dall-e fosse incorporado ao chatgpt? mesma estratégia. o recurso sempre supera o produto quando a distribuição é 1000x maior.
hoje a lyria 3 é um brinquedo de 30 segundos. suno oferece stems, inpainting, faixas de 15 minutos, personas vocais. sem comparação em qualidade agora.
mas o suno tinha a mesma vantagem sobre o primeiro modelo de música do google. depois v2. depois v3. a diferença se fecha a cada versão.
a openai também está construindo um. fez parceria com estudantes da Juilliard para anotar dados de treinamento. um novo modelo de áudio deve chegar até março.
mas "esperado" e "enviado" são palavras diferentes. o google enviou hoje.
o movimento deles é o mesmo que o do google. agrupar tudo em uma única conversa.
"faça um vídeo sobre X. agora adicione música. agora escreva a legenda."
esse é o produto. não um gerador de música. um gerador de tudo.
a linha do tempo da modalidade conta toda a história:
2022: geração de texto (todo mundo se apressa)
2023: geração de imagem (midjourney explode)
2024: geração de vídeo (sora, runway, kling)
2025: geração de música (suno atinge $200M)
2026: tudo isso. em um aplicativo. a partir de um único comando.
a corrida não é sobre quem tem a melhor IA de música. ou a melhor IA de imagem. ou a melhor IA de vídeo.
é sobre quem os reúne todos primeiro de uma forma que pareça natural.
o google acabou de assumir a liderança.
o que estou acompanhando a seguir:
a openai lança música antes do Q2?
a receita do suno se mantém quando o google disponibiliza geração de música grátis?
quão rápido o "brinquedo de 30 segundos" se torna uma "ferramenta de produção de 3 minutos"?
a corrida multimodal acabou de ganhar uma nova linha de chegada.