Sand.ai отримала понад мільярд доларів інвестицій: наполягає на авторегресивному відео-шляху, планує випустити відкритий код MoE великої моделі у липні

Згідно з моніторингом Beating, компанія, що займається генерацією відео на основі великих моделей Sand.ai (заснована у січні 2024 року), оголосила про завершення двох раундів фінансування на суму понад мільярд доларів США. Інвесторами є Look Capital, Lollapalooza Capital (офіс Ван Хуейвена), Jiukun Venture Capital, Matrix Partners China, MSA Capital, Innovation Works, Source Code Capital, IDG, Baidu Venture Capital та інші провідні інституції. Цей раунд фінансування був проведений за участю фінансового радника Xinghan Capital.

Засновник Sand.ai Цао Юе у інтерв’ю зазначив, що команда дотримується підходу до генерації відео на основі авторегресії (Autoregressive), який вважається не консенсусним, а не основним шляхом Diffusion. Його попередня модель Magi-1 посідала перше місце у списку фізичної достовірності Physics-IQ від Google DeepMind.

Щоб подолати «недосяжний трикутник» у вартості, швидкості та якості відеогенерації, Sand.ai минулого року переключилася на дослідження архітектури MoE (змішаний експерт) і планує у третьому кварталі 2026 року випустити нове покоління моделей для генерації відео з архітектурою MoE, що поєднує ефективне виведення та найбільший у відкритому доступі масштаб параметрів, а також зробить цю модель відкритою.

Щодо комерціалізації, Sand.ai застосовує двовекторну стратегію — модель і продукт. Їхній музичний агент VidMuse, запущений у січні цього року, за два місяці досяг річного доходу у 10 мільйонів доларів США. Крім того, їхній відкритий набір операторів MagiAttention вже використовується майже всіма командами багатомодальних моделей у країні та отримав рекомендацію від NVIDIA.

Щодо популярної у галузі концепції «світової моделі», Цао Юе вважає, що вона все ще перебуває у перед-GPT епосі (до появи GPT-1), і дані та підходи ще не стабілізовані. Він зазначив, що відео є найважливішим модальністю для створення світової моделі, і її слід навчати шляхом прогнозування первинних спостережень відео (Pixels/Frames), щоб модель могла самостійно засвоювати фізичні закони, а не вводити людські прерогативи для явного моделювання станів.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено