Sand.ai consegue financiamento superior a mil milhões de dólares: mantém a rota de vídeo autoregressivo, planeia lançar em julho um grande modelo MoE de código aberto

De acordo com o monitoramento Beating, a empresa de modelos de geração de vídeo Sand.ai (fundada em janeiro de 2024) anunciou a conclusão de duas rodadas de financiamento totalizando mais de 100 milhões de dólares. Os investidores incluem Look Capital, Lollapalooza Capital (empresa de Wang Huiwen), Jiukun Venture Capital, Matrix Partners China, MSA Capital, Innovation Works, Source Code Capital, IDG, Baidu Venture Capital e várias outras instituições de primeira linha. Esta rodada de financiamento foi conduzida pela Xinghan Capital como consultora financeira.

O fundador da Sand.ai, Cao Yue, afirmou em entrevista que a equipe sempre insistiu em ser vista como uma abordagem de geração de vídeo autoregressiva (Autoregressive) não consensual, em vez da rota mainstream de difusão (Diffusion). Seu modelo Magi-1, lançado anteriormente, mantém a primeira posição na lista de testes de realismo físico Physics-IQ do Google DeepMind.

Para superar o triângulo impossível de "custo, velocidade e qualidade" na geração de vídeo, a Sand.ai mudou-se no ano passado para explorar a arquitetura MoE (Expert Mixture), planejando lançar em julho de 2026 (Q3) uma nova geração de modelos de geração de vídeo usando arquitetura MoE, equilibrando inferência eficiente com a maior escala de parâmetros atualmente disponível no campo de código aberto, e abrirá esse modelo ao público.

No aspecto de comercialização, a Sand.ai adota uma estratégia de dupla roda de modelos e produtos. Seu produto de agente musical VidMuse, lançado em janeiro deste ano, já atingiu uma receita anual recorrente (ARR) de 10 milhões de dólares em apenas dois meses. Além disso, sua biblioteca de operadores MagiAttention, de código aberto, é usada por quase todas as equipes de modelos multimodais na China e recebeu recomendação oficial da Nvidia.

Em relação ao conceito de "modelo mundial" que tem sido amplamente discutido na indústria, Cao Yue acredita que ainda está na era pré-GPT (antes do GPT-1), com dados e rotas ainda não convergentes. Ele aponta que o vídeo é a modalidade de dados mais importante para avançar em direção ao modelo mundial, devendo prever os dados de observação originais do vídeo (Pixels/Frames) para que o modelo aprenda autonomamente as leis físicas, ao invés de introduzir pré-concepções humanas para modelar explicitamente as variáveis de estado.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado