Sand.ai mendapatkan pendanaan lebih dari satu miliar dolar: tetap berfokus pada jalur video autoregressive, berencana merilis model besar MoE sumber terbuka pada Juli

Menurut pemantauan Beating, perusahaan model besar pembuatan video Sand.ai (didirikan pada Januari 2024) mengumumkan penyelesaian dua putaran pendanaan dengan total lebih dari satu miliar dolar AS. Investor termasuk Look Capital, Lollapalooza Capital (keluarga Wang Huiwen), Jiukun Venture Capital, Matrix Partners China, MSA Capital, Innovation Works, Source Code Capital, IDG, Baidu Venture Capital, dan beberapa lembaga terdepan lainnya. Putaran pendanaan ini didampingi oleh Xingan Capital sebagai penasihat keuangan.

Pendiri Sand.ai, Cao Yue, dalam wawancara menyatakan bahwa tim selalu berpegang teguh pada jalur generasi video autoregressive yang dianggap tidak konvensional, bukan jalur diffusion yang menjadi arus utama. Model Magi-1 yang dirilis sebelumnya tetap berada di peringkat pertama dalam daftar pengujian Physics-IQ dari Google DeepMind yang menguji keaslian fisik.

Untuk mengatasi tantangan "biaya, kecepatan, dan kualitas" dalam generasi video, Sand.ai beralih tahun lalu untuk mengeksplorasi arsitektur MoE (hibrid ahli), dan berencana merilis model generasi video generasi baru yang menggunakan arsitektur MoE pada Juli 2026 (Q3), yang menggabungkan inferensi efisien dan skala parameter terbesar di bidang sumber terbuka saat ini, serta akan membuka sumber model tersebut.

Dalam hal komersialisasi, Sand.ai mengadopsi strategi penggerak ganda antara model dan produk. Produk Agent musik mereka, VidMuse, yang diluncurkan pada Januari tahun ini, telah mencapai ARR sebesar 10 juta dolar AS dalam waktu hanya 2 bulan. Selain itu, perpustakaan operator MagiAttention yang mereka buka sumbernya telah digunakan oleh hampir semua tim model multimodal di dalam negeri dan mendapatkan rekomendasi resmi dari Nvidia.

Mengenai konsep "model dunia" yang sedang ramai dibicarakan di industri, Cao Yue berpendapat bahwa konsep tersebut masih berada di era sebelum GPT (sebelum munculnya GPT-1), data dan jalur belum konvergen. Ia menambahkan bahwa video adalah modal data terpenting menuju model dunia, dan seharusnya melalui prediksi data observasi asli video (Pixels/Frames) agar model dapat belajar secara mandiri tentang hukum fisika, bukan dengan memasukkan prakonsepsi manusia untuk secara eksplisit memodelkan variabel status.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan