Đối thoại biến độc CTO Vương Hạo: Tại sao “Chén Thánh” của trí tuệ thể chất lại là gia đình?

Question

DaleBiên tập: Đồng Vũ Khanh“Gia đình thực sự là chén thánh của trí tuệ thể hiện bằng cơ thể.” Vào sáng ngày 30 tháng 3 năm 2026, tại Học viện Zero One Thâm Quyến, đồng sáng lập kiêm CTO Vương Hạo của công ty robot Tự Biến đã đưa ra nhận định này trong một buổi phỏng vấn, bao gồm cả Phoenix Network Technology. Lúc bấy giờ đang trong thời gian diễn ra Đại hội Nhà phát triển Trí tuệ Thể hiện bằng Cơ thể lần thứ nhất (EAIDC 2026); 20 đội hàng đầu lọt vào vòng chung kết đã quy tụ tại đây, và người tham gia chỉ có ba ngày để hoàn tất toàn bộ quy trình từ thu thập dữ liệu từ số 0, huấn luyện mô hình đến triển khai trên máy thật.Trong năm 2026, khi hầu như tất cả các đối thủ đều ưu tiên giành đơn hàng trong bối cảnh công nghiệp, Tự Biến lại chọn một con đường mạo hiểm hơn. Tháng 3 năm nay, Tự Biến công bố hợp tác với 58 Đồng Thành: từ nền tảng 58 Tới Nhà sẽ điều phối ngẫu nhiên cô dì và robot thành một đội hợp tác, cùng cung cấp dịch vụ gia chính, và hiện đã mở thí điểm tại Thâm Quyến. Gia đình—một bối cảnh có mức độ tiêu chuẩn hóa thấp nhất và môi trường cởi mở nhất—đang trở thành chiến trường then chốt trong tâm trí Tự Biến “để đi tới robot vạn năng”.**01 Một cuộc thi kéo robot trở lại thế giới thực**Cơ chế thi của EAIDC 2026 lần này có khá nhiều ẩn ý. Tất cả đội tham dự sử dụng cùng một nền tảng phần cứng; trong vòng ba ngày, từ trạng thái lần đầu tiếp xúc với mô hình nền tảng trí tuệ thể hiện bằng cơ thể và hiệu chỉnh máy thật, hoàn tất toàn bộ quy trình từ thu thập dữ liệu đến triển khai máy thật. Thông thường, một phòng thí nghiệm nghiên cứu chuyên nghiệp để xây dựng tương tự ít nhất cần 6 tháng.Theo quan sát của Vương Hạo, ngay vào buổi chiều của ngày đầu tiên cuộc thi bắt đầu đã xuất hiện sự phân hóa rõ rệt. “Chiều khai mạc thì vẫn còn đó, đến tối có những thí sinh vẫn đang hiệu chỉnh môi trường, còn có những thí sinh đã có kết quả rồi. Đây là sự khác biệt rất lớn.” Sau đó ông phát hiện rằng, so với các thí sinh không hề động tay, những đội thường xuyên đánh giá, quan sát kỹ dữ liệu và phần cứng thì nổi bật hơn. “Toàn bộ ‘thể hiện bằng cơ thể’ là học tương tác: máy tìm ra vấn đề trong quá trình thử nghiệm và thông qua quan sát của con người; càng có khả năng tìm ra lời giải cho độ phức tạp thật sự của thế giới vật lý.”Một thí sinh sau đó nhớ lại: khi ban đầu đối mặt với nhiệm vụ “luồn vòng vào cột”, tỷ lệ thành công chỉ khoảng 20% đến 30%; sau khi liên tục lặp lại và cải tiến, cuối cùng mới dần nâng lên mức 60% đến 70%.Cuộc thi cũng thiết lập bảng A và bảng B—Bảng A: môi trường có thể kiểm soát, giúp thí sinh nhanh chóng xác nhận năng lực mô hình; Bảng B thì hoàn toàn là hộp đen, kiểm tra năng lực khái quát của mô hình khi thay đổi điều kiện như ánh sáng, nền, đối tượng thao tác và vị trí thao tác. Vương Hạo nói đây là ý định ban đầu của họ khi tổ chức thi đấu: “Muốn thông qua cuộc thi này thực sự giúp dự án mã nguồn mở hạ thấp đáng kể ngưỡng sử dụng đối với nhà phát triển, xây dựng một giao diện tương đối phổ thông và tiêu chuẩn.”Trong ngành trí tuệ thể hiện bằng cơ thể vốn phụ thuộc lâu dài vào đánh giá mô phỏng, môi trường mô phỏng có thể tăng tốc lặp lại, nhưng khó phản ánh chính xác độ phức tạp của thế giới thực; khoảng cách sim2real (tức phương pháp chuyển giao kỹ thuật từ môi trường mô phỏng sang thế giới thực) luôn tồn tại. Vương Hạo thẳng thắn: “Phụ thuộc lâu dài vào đánh giá mô phỏng là không thể tránh khỏi việc che giấu ranh giới thực sự của năng lực mô hình.” Và EAIDC này, “sàn diễn võ máy thật”, cố gắng kéo việc đánh giá, huấn luyện và thu thập dữ liệu trở lại cùng một thế giới thực.**02 Một câu chuyện “mới” end-to-end?**Tự Biến ngay từ đầu đã chọn lộ trình “mô hình end-to-end thống nhất ‘đại não và tiểu não’”. Về kiến trúc kỹ thuật, đội đang thử nghiệm hợp nhất mô hình thế giới (world model) với mô hình VLA (thị giác-ngôn ngữ-hành động) trong một khung làm việc liên kết.Vương Hạo giải thích logic cốt lõi của lộ trình này. “Nền tảng huấn luyện của mô hình ngôn ngữ lớn vẫn cần phải dùng, chỉ là chúng tôi phải đưa ngôn ngữ và hành động vào cùng một không gian, thay vì như trước đây để toàn bộ thị giác phục vụ ngôn ngữ.” Thông tin mà mô tả bằng ngôn ngữ mang tính vĩ mô; còn tương tác trong thế giới vật lý diễn ra ở mức cm và giây—giữa hai bên tồn tại một khoảng cách thông tin rất lớn. “Nếu chúng ta áp dụng cách thức đa phương thức nguyên sinh, thì hành động có thể thể hiện rất rõ ràng cả ở bình diện vĩ mô lẫn vi mô; nó có thể chuyển thị giác từ việc quan sát tĩnh trước đây thành việc khiến thị giác hiểu được chuyển động.”Điều này trái ngược với thiết kế giản lược của nhiều mô hình VLA hiện nay. Một số nhà quan sát trong ngành cho rằng nhiều mô hình thể hiện bằng cơ thể vẫn thiên về giản lược; đa số mô hình VLA vẫn dựa vào đầu vào là hình ảnh đơn lẻ.Vương Hạo cho rằng, thách thức lớn nhất của mô hình end-to-end nằm ở độ phức tạp huấn luyện và yêu cầu về quy mô. “Nếu không có đủ hai điều kiện này, thì việc chọn end-to-end chưa chắc đã cho hiệu quả tốt hơn so với mô hình nhỏ theo từng mảng hoặc mô hình phân tầng. End-to-end có nghĩa là phải có hiệu ứng quy mô: lượng dữ liệu và số lượng tham số mô hình phải tăng lên.” Ngoài ra, việc đánh giá trong trí tuệ thể hiện bằng cơ thể cũng “khó nhằn” hơn so với mô hình ngôn ngữ lớn. “Mô hình ngôn ngữ lớn có thể xem đường cong loss; còn với trí tuệ thể hiện bằng cơ thể, thường không phải như vậy. loss không phản ánh bạn đang thể hiện như thế nào trong thế giới thực, vì thế giới thực là một hệ thống vòng kín.”Một chiến lược cốt lõi khác của Tự Biến là kiên trì thu thập dữ liệu trên máy thật trong thế giới thực. Vương Hạo nói: “Với mọi học tập tương tác và học tăng cường, dữ liệu quan trọng nhất đều đến từ máy thật. Việc thu thập dữ liệu này sẽ không dừng lại, mà còn tiếp tục làm.” Nhưng ông cũng tiết lộ: năm 2026 sẽ có một thay đổi lớn—“ngày càng phụ thuộc vào cách thu thập dữ liệu qua trang bị mặc trên người của con người, hoặc theo hướng Ego-Centric”.Việc xây dựng vòng lặp dữ liệu khép kín là một mệnh đề then chốt khác của Tự Biến. Vương Hạo nói: “Sớm dùng cách làm cộng tác người-máy để khiến vòng lặp chạy lên. Trước hết, dùng dữ liệu chất lượng cao và huấn luyện quy mô lớn để xây dựng một mô hình nền tảng; dù không thể giải quyết mọi nhiệm vụ, nhưng nên đặt nó vào môi trường thực để bắt đầu. Nếu có chỗ làm không tốt, thì con người sẽ tiếp quản nó, giúp nó phục hồi từ sai sót. Những dữ liệu như vậy cũng sẽ là một nguồn vô cùng quý giá.” Ông đang mô tả một hệ thống trong đó việc đánh giá, huấn luyện và thu thập dữ liệu được hoàn thành trong cùng một quá trình.**03 Tại sao lại là gia đình?**Trên thực tế, trong ngành có quan điểm phổ biến rằng ứng dụng chín muồi trong bối cảnh gia đình phải chờ khoảng 5 đến 10 năm; đa số nhà sản xuất khi thương mại hóa lại có xu hướng nghiêng về bối cảnh công nghiệp—môi trường kiểm soát được, nhiệm vụ đơn nhất, ROI có thể tính được. Đầu năm 2026, một loạt công ty robot có vốn hóa hàng trăm tỷ xuất hiện, nhưng trong hướng dịch vụ gia đình thì hiện tại vẫn chưa có một người chơi thực sự trưởng thành theo nghĩa nào đó.Vương Hạo đưa ra một hướng giải khác: “Gia đình đại diện cho môi trường cởi mở nhất và nhiệm vụ đa dạng nhất. Khi giải được nhiệm vụ trong gia đình, điều đó đồng nghĩa mô hình có thể thực hiện khái quát hoàn toàn. Chỉ khi ngay từ đầu đối diện trực tiếp với bối cảnh phức tạp nhất thì mới nâng cao được mức độ thông minh của mô hình. Dù bắt đầu từ khi nào, càng sớm càng tốt—đó là điều quan trọng nhất.”Tuy nhiên, để bước vào gia đình có vài khó khăn then chốt. Một là năng lực khái quát trong zero-shot—mô hình phải thông qua suy luận và thăm dò để tìm đường đi thành công, chứ không dựa vào việc được huấn luyện trước. “Bước vào gia đình ngay từ đầu gần như không có cơ hội huấn luyện mô hình nhiều; khi đó cần kích hoạt năng lực suy luận của mô hình để nó, trong bối cảnh gia đình, thông qua suy luận và thăm dò mà tìm ra các ví dụ thành công.” Hai là độ tinh xảo của thao tác tầm xa. “Hiện tại mô hình nền tảng vào gia đình, ở nhiều nhiệm vụ đã có xu hướng hoàn thành hoặc ý định hành động; ví dụ có thể có xu hướng vươn tay ra với bất kỳ vật thể nào để nắm lấy. Nhưng độ tinh xảo chưa đủ, khiến khi gặp nhiệm vụ dài và phức tạp, lỗi tích lũy sẽ dẫn đến thất bại.”Vương Hạo giới thiệu rằng việc giải quyết bài toán độ tinh xảo trong thao tác tầm xa có hai điểm then chốt. Thứ nhất là kích hoạt năng lực suy luận của mô hình: “Kết hợp ngôn ngữ với thị giác để suy luận; ngôn ngữ, thị giác và hành động hình thành một chuỗi suy nghĩ ở cùng một cấp độ, để robot có thể tự lập kế hoạch và tự phản tư.” Thứ hai là thực hiện học tăng cường trong điều kiện có quy mô máy thật lớn: “Giữ chuẩn theo mô hình nền tảng, nhưng đạt tới không gian độ chính xác cao hơn.”Vương Hạo dự đoán “các nhiệm vụ bình thường như vệ sinh cơ bản, dọn dẹp cất gọn có thể đạt tự chủ hoàn toàn trong 1 đến 2 năm. Nhưng để đạt vòng lặp khép kín cho mọi nhiệm vụ trong mọi gia đình, có lẽ còn lâu hơn một chút.”Điều này phù hợp với phát biểu của CEO Tự Biến Vương Tiềm. Vương Tiềm từng nói trong một cuộc phỏng vấn rằng trong năm nay có thể thấy robot thương mại hóa đi vào thực tế theo cách có ROI dương. Dù nhịp độ thúc đẩy bối cảnh gia đình rõ ràng chậm hơn, nhưng cũng mang tính lâu dài hơn.Trở lại với chủ đề gây tranh cãi mà trong ngành trí tuệ thể hiện bằng cơ thể hiện được quan tâm nhất—lựa chọn lộ trình kỹ thuật quan trọng đến mức nào so với thương mại hóa?“Trong lĩnh vực trí tuệ thể hiện bằng cơ thể này, những thành tựu ‘trần cao’ đạt được bằng việc hy sinh kỹ thuật để đổi lấy thương mại sẽ không thể cao được. Trần cao thật sự là sự phối hợp giữa thương mại và kỹ thuật: nhờ kỹ thuật dần dần thúc đẩy sự phát triển của thương mại.” Vương Hạo cho rằng, đường chủ tuyến của Tự Biến là khiến mô hình nền tảng không ngừng lặp lại và tiến hóa. “Nhưng có một điều: đừng làm quá nhiều hệ thống mô hình trong các bối cảnh theo chiều dọc, để rồi bù đắp bằng nhiều công trình kỹ thuật chỉ nhằm triển khai. Ví dụ phát hiện robot có điểm mù về thị giác thì làm một mô hình nhỏ để phát hiện. Trong ngắn hạn, nó có thể giúp tăng tốc triển khai, nhưng trong dài hạn thì gây hại cho sự nâng cấp của mô hình nền tảng.”Sự kiên trì này tương ứng với logic trong việc lựa chọn bối cảnh của Tự Biến—tiêu chí đầu tiên để chọn bối cảnh là xem liệu nó có thể phản hồi năng lực của mô hình nền tảng hay không. “Không phải là bạn phải làm công nghệ đạt khái quát hoàn toàn rồi mới cân nhắc bối cảnh. Ngược lại hoàn toàn. Chính bối cảnh giúp bạn lặp lại; nhờ lặp lại mà mô hình nền tảng mạnh hơn; rồi mô hình nền tảng mạnh hơn lại phản hồi cho thương mại. Nhờ vậy mới hình thành một vòng khép kín hoàn chỉnh.”Ông cũng tiết lộ rằng khoản đầu tư cho mô hình nền tảng luôn rất cao: từ ngày công ty thành lập, họ đã đầu tư quy mô lớn vào dữ liệu, năng lực tính toán và cơ sở hạ tầng. “Một khi thiết lập được hiệu ứng quy mô, thì khi bạn đầu tư gấp 10 lần nguồn lực để giành lợi thế, hiệu ứng tập trung nguồn lực sẽ ngày càng rõ ràng. Bạn sẽ vượt người khác về tốc độ nhờ lợi thế theo bậc độ. Bắt đầu càng sớm càng có lợi, bắt đầu càng muộn càng khó thành công.”     (Biên tập viên: Liu Jing HZ010)  		          【Tuyên bố miễn trừ trách nhiệm】Bài viết này chỉ thể hiện quan điểm của chính tác giả, không liên quan đến Hexun.com. Trang web Hỗ Tín đối với các phát biểu, phán đoán quan điểm trong bài viết giữ thái độ trung lập, không đưa ra bất kỳ cam kết minh thị hay ngụ ý nào về độ chính xác, độ tin cậy hoặc tính hoàn chỉnh của nội dung được bao gồm. Vui lòng độc giả chỉ dùng để tham khảo và tự chịu toàn bộ trách nhiệm. Email：news_center@staff.hexun.com            Báo cáo

Đối thoại biến độc CTO Vương Hạo: Tại sao “Chén Thánh” của trí tuệ thể chất lại là gia đình?

Chủ đề thịnh hành

GateSquareAprilPostingChallenge

MarchNonfarmPayrollsIncoming

IsraelStrikesIranBTCPlunges

CryptoMarketSeesVolatility

OilPricesRise

Gate Fun hot

狐狸币

狐狸币

iranht

"Iran has teeth".

FUN

FUN COIN

Token

词元

TMP

特没谱

Ghim