Sand.ai obtém mais de uma centena de milhões de dólares em financiamento: mantém a rota de vídeo autoregressivo, planeja lançar o grande modelo MoE de código aberto em julho

De acordo com o monitoramento Beating, a empresa de modelos grandes de geração de vídeo Sand.ai (fundada em janeiro de 2024) anunciou a conclusão de duas rodadas de financiamento que totalizaram mais de 100 milhões de dólares. Os investidores incluem Look Capital, Lollapalooza Capital (empresa de Wang Huiwen), Jiukun Venture Capital, Matrix Partners China, MSA Capital, Innovation Works, Source Code Capital, IDG, Baidu Venture Capital e várias outras instituições de primeira linha. Esta rodada de financiamento foi conduzida pela Xinghan Capital como consultora financeira.

O fundador da Sand.ai, Cao Yue, afirmou em entrevista que a equipe sempre insistiu em ser vista como uma rota de geração de vídeo autoregressiva (Autoregressive) não consensual, e não a rota de difusão (Diffusion) mainstream. Seu modelo Magi-1, lançado anteriormente, mantém a primeira colocação na lista de testes de realismo físico Physics-IQ do Google DeepMind.

Para superar o triângulo impossível de "custo, velocidade e qualidade" na geração de vídeo, a Sand.ai mudou-se no ano passado para explorar a arquitetura MoE (Expert Mixture), e planeja lançar em julho de 2026 (Q3) uma nova geração de modelos de geração de vídeo usando arquitetura MoE, equilibrando inferência eficiente e o maior escala de parâmetros atualmente disponível na área de código aberto, além de abrir esse modelo ao público.

No aspecto de comercialização, a Sand.ai adota uma estratégia de duplo impulso de modelos e produtos. Seu produto de agente musical VidMuse, lançado em janeiro deste ano, já atingiu uma receita recorrente anual (ARR) de 10 milhões de dólares em apenas dois meses. Além disso, sua biblioteca de operadores MagiAttention, de código aberto, é usada por quase todas as equipes de modelos multimodais na China e recebeu recomendação oficial da Nvidia.

Em relação ao conceito de "modelo de mundo", amplamente discutido na indústria, Cao Yue acredita que ainda estamos na era anterior ao GPT (antes do GPT-1), com dados e rotas ainda não convergentes. Ele aponta que o vídeo é a modalidade de dados mais importante para avançar em direção ao modelo de mundo, devendo prever os dados de observação originais do vídeo (Pixels/Frames) para que o modelo aprenda autonomamente as leis físicas, ao invés de introduzir pré-concepções humanas para modelar explicitamente as variáveis de estado.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado