Sand.ai huy động hơn một tỷ USD vốn đầu tư: kiên trì theo đuổi hướng phát triển video tự hồi quy, dự kiến ra mắt mô hình lớn MoE mã nguồn mở vào tháng 7

Theo giám sát Beating, công ty tạo video mô hình lớn Sand.ai (thành lập tháng 1 năm 2024) đã công bố hoàn thành hai vòng gọi vốn với tổng giá trị hơn 100 triệu USD. Các nhà đầu tư bao gồm Look Capital, Lollapalooza Capital (quỹ gia đình Wang Huiwen), Jiukun Venture Capital, Matrix Partners China, MSA Capital, Innovation Works, Source Code Capital, IDG, Baidu Venture Capital và nhiều tổ chức hàng đầu khác. Vòng gọi vốn này do Starhan Capital đảm nhiệm vai trò cố vấn tài chính.

Sáng lập Sand.ai, Cao Yue, trong cuộc phỏng vấn cho biết, nhóm luôn kiên trì theo đuổi hướng phát triển tạo video dựa trên phương pháp tự hồi quy (Autoregressive), khác biệt với hướng phổ biến là Diffusion. Mô hình Magi-1 mà họ đã phát hành trước đó đứng đầu bảng xếp hạng kiểm tra tính chân thực vật lý Physics-IQ của Google DeepMind.

Để phá vỡ tam giác “chi phí, tốc độ, hiệu quả” trong tạo video, Sand.ai đã chuyển hướng sang khám phá kiến trúc MoE (Chuyên gia hỗn hợp) từ năm ngoái, và dự kiến sẽ ra mắt mô hình tạo video mới sử dụng kiến trúc MoE vào tháng 7 năm 2026 (quý 3), kết hợp khả năng suy luận hiệu quả và quy mô tham số lớn nhất trong lĩnh vực mã nguồn mở hiện nay, đồng thời sẽ mở mã nguồn mô hình này.

Về mặt thương mại, Sand.ai áp dụng chiến lược hai bánh xe cho mô hình và sản phẩm. Sản phẩm Agent âm nhạc VidMuse ra mắt tháng 1 năm nay đã đạt doanh thu hàng năm (ARR) 10 triệu USD chỉ sau 2 tháng. Ngoài ra, thư viện thuật toán MagiAttention mã nguồn mở của họ đã được hầu hết các nhóm mô hình đa phương thức trong nước sử dụng và nhận được đề xuất từ chính Nvidia.

Về khái niệm “mô hình thế giới” đang được ngành thảo luận sôi nổi, Cao Yue cho rằng hiện tại vẫn còn trong thời kỳ tiền GPT (trước GPT-1), dữ liệu và hướng phát triển chưa hội tụ. Ông nhấn mạnh rằng video là dữ liệu quan trọng nhất để hướng tới mô hình thế giới, nên dựa trên dự đoán dữ liệu quan sát gốc của video (Pixels/Frames) để mô hình tự học các quy luật vật lý, thay vì đưa vào các tiền đề của con người để mô hình rõ ràng xây dựng các biến trạng thái.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim