Sand.ai привлекла более 100 миллионов долларов финансирования: придерживается авторегрессивного видеопути, планирует выпустить открытый исходный код модели MoE в июле

Согласно мониторингу Beating, компания по созданию моделей для генерации видео Sand.ai (основана в январе 2024 года) объявила о завершении двух раундов финансирования на сумму более 100 миллионов долларов. Инвесторами выступили такие крупные организации, как Look Capital, Lollapalooza Capital (семейный офис Ван Хуэйвэна), Jiukun Venture Capital, Matrix Partners China, MSA Capital, Innovation Works, Source Code Capital, IDG, Baidu Venture Capital и другие ведущие институты. Этот раунд финансирования был проведен при участии финансового консультанта Starhan Capital.

Основатель Sand.ai Цао Юэ в интервью заявил, что команда придерживается автономного (Autoregressive) подхода к генерации видео, который считается неконсенсусным, а не популярного метода диффузии. Его ранее выпущенная модель Magi-1 занимает первое место в списке тестов физической достоверности Physics-IQ от Google DeepMind.

Чтобы преодолеть «невозможный треугольник» стоимости, скорости и качества при генерации видео, Sand.ai в прошлом году переключилась на исследование архитектуры MoE (гибридных экспертов) и планирует выпустить новое поколение модели для генерации видео с использованием архитектуры MoE в третьем квартале 2026 года, сочетающей высокоэффективное выполнение и самый большой в открытом доступе масштаб параметров, а также намерена открыть исходный код этой модели.

В коммерческой сфере Sand.ai реализует стратегию двойного драйва — развитие моделей и продуктов. В январе этого года был запущен музыкальный агент VidMuse, который за два месяца достиг годового дохода в 10 миллионов долларов. Кроме того, их открытая библиотека MagiAttention уже используется практически всеми командами по многомодальной обработке данных в стране и получила рекомендацию от NVIDIA.

Относительно широко обсуждаемой концепции «мировой модели» Цао Юэ считает, что она все еще находится в предэтапе GPT (до появления GPT-1), и данные, и маршруты еще не достигли сходимости. Он отметил, что видео — наиболее важная модальность данных для создания мировой модели, и модель должна самостоятельно усваивать физические законы, прогнозируя исходные наблюдения видео (Pixels/Frames), а не вводить человеческие приоритеты для явного моделирования переменных состояния.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено