数据飞轮还是重复样本?Physical AI 该告别「小时数崇拜」了

TL;DR
· Nhà robot học Animesh Garg đặt câu hỏi về việc ngành công nghiệp coi số giờ vận hành từ xa là chỉ số năng lực của mô hình.
· Chi phí thu thập dữ liệu robot cao, dữ liệu triển khai thường đến từ các kịch bản hẹp, và các mẫu lặp lại nhanh chóng trở nên đắt đỏ.
· Có giá trị hơn có thể là các thất bại dài hạn, độ phủ nhiệm vụ và các mẫu mới lạ, thay vì tổng thời gian vận hành.

Từng là, kiêm nhiệm tại Đại học Toronto và hiện là giáo sư tại Georgia Tech, nhà robot học Animesh Garg, trong một bài viết có tiêu đề "Moneyball cho Physical AI", đã so sánh cuộc đua dữ liệu trong lĩnh vực trí tuệ vật lý (embodied AI) với khoảnh khắc "Moneyball" trong lịch sử bóng chày.

Ông muốn thách thức một câu chuyện huy động vốn ngày càng phổ biến: Các công ty robot chỉ cần tích lũy nhiều thao tác từ xa hơn, nhiều triển khai thực tế hơn, và nhiều giờ vận hành hơn là có thể tạo ra một vòng xoay dữ liệu. Đối với các nhà đầu tư, đây không phải là cuộc chiến hàn lâm. Chi phí cấu trúc, tốc độ thương mại hóa và rào cản mô hình của các công ty trí tuệ vật lý thường được gói gọn trong bốn chữ "vòng lặp dữ liệu". Nếu tổng số giờ tích lũy không tương đương với tiến bộ mô hình hiệu quả, thị trường cần nhìn nhận lại tài sản dữ liệu của các công ty này.

"Số giờ dữ liệu" có thể là sự mê tín về tỷ lệ đánh trúng trong ngành robot

Garg mượn phép so sánh kinh điển từ "Moneyball". Năm 2002, đội Oakland Athletics đã thắng 103 trận với một đội hình có một trong những quỹ lương thấp nhất giải đấu. Chìa khóa không phải là mua cầu thủ đắt hơn, mà là phát hiện ra thị trường đã định giá sai giá trị cầu thủ. Các nhà tuyển dụng truyền thống chú trọng tỷ lệ đánh trúng, cướp cơ sở và tư thế, nhưng chỉ số giải thích tốt hơn khả năng ghi điểm của một đội là tỷ lệ lên cơ sở.

Theo ông, Physical AI cũng có thể đang ở giai đoạn tương tự. Ngành công nghiệp thừa nhận rằng dữ liệu là yếu tố cần thiết để hướng tới các mô hình robot đa năng, nhưng lại dễ dàng coi các chỉ số dễ trình bày nhất là chỉ số quan trọng nhất: tổng số giờ vận hành từ xa, số lượng quỹ đạo dạy kèm, số lượng robot triển khai, thời gian vận hành trong môi trường sản xuất.

Cách cung cấp dữ liệu robot và dữ liệu văn bản không giống nhau. Các mô hình ngôn ngữ lớn có thể thu được lượng lớn văn bản chi phí thấp từ internet, kho mã nguồn, sách và trang web. Nút thắt cổ chai nhiều hơn đến từ sức mạnh tính toán, làm sạch và hiệu quả huấn luyện. Mô hình robot cần dữ liệu có tương tác vật lý, phản hồi hành động và thay đổi môi trường. Mỗi giờ dữ liệu hiệu quả đều phải được tạo ra thực sự, đằng sau đó là chi phí thiết bị, nhân lực, địa điểm, cảm biến, xử lý thất bại và an toàn.

Nhà robot học Ken Goldberg từng sử dụng "khoảng cách dữ liệu 100.000 năm" để mô tả khoảng cách giữa dữ liệu robot và dữ liệu AI quy mô internet. Chính xác hơn, dữ liệu văn bản và hình ảnh mà các mô hình ngôn ngữ lớn đa phương thức hiện đại tiêu thụ trong quá trình huấn luyện, nếu quy đổi thành thời gian đọc hoặc xem của con người, tương đương khoảng 100.000 năm, trong khi robot thiếu dữ liệu tương tác thực tế ở quy mô tương tự. Nhận định này không đặt ra một ngưỡng chính xác cho các mô hình robot, mà để nhắc nhở ngành công nghiệp: dữ liệu tương tác trong thế giới thực không thể được thu thập với chi phí thấp như văn bản trên web.

Đây cũng là lý do Garg phản đối câu chuyện "thao tác từ xa kiểu nhà máy mồ hôi". Vô số thao tác từ xa của con người có thể mang lại các mẫu huấn luyện giàu hành động, nhưng nếu công ty chỉ đánh giá dữ liệu dựa trên tổng số giờ, vốn có thể chảy vào các mẫu lặp lại, có độ khó thấp, mật độ thông tin thấp, thay vì các kịch bản có thể giảm tỷ lệ thất bại nhiều nhất.

Ba loại dữ liệu mua được những thứ khác nhau

Trong phân loại của Garg, dữ liệu Physical AI chủ yếu được chia thành ba loại: dữ liệu quan sát, dữ liệu can thiệp và dữ liệu triển khai. Tất cả đều có thể hữu ích, nhưng chi phí, ràng buộc và mật độ thông tin khác nhau rõ rệt.

Loại đầu tiên là dữ liệu quan sát, chẳng hạn như video góc nhìn thứ nhất hoặc thứ ba. Ưu điểm của nó là chi phí thấp, phạm vi phủ rộng, có thể giúp mô hình hiểu đối tượng, không gian, kết quả hành động và phân bố môi trường. Hạn chế rõ ràng: mô hình có thể thấy điều gì xảy ra với người hoặc vật thể, nhưng không nhất thiết biết robot nên thực hiện hành động nào trong một trạng thái nhất định.

Loại thứ hai là dữ liệu can thiệp, tức là các quỹ đạo từ trạng thái đến hành động được tạo ra thông qua thao tác từ xa, dạy kèm và can thiệp thủ công. Loại dữ liệu này trực tiếp hơn cho việc huấn luyện robot vì nó chứa chuỗi "nhìn thấy gì, di chuyển thế nào, điều gì xảy ra sau khi di chuyển". Cái giá là mỗi quỹ đạo chất lượng cao đều phải mua bằng tiền, chi phí nhân lực và thiết bị khó giảm nhanh như dữ liệu phần mềm.

Loại thứ ba là dữ liệu triển khai, tức là dữ liệu đo từ xa được tạo ra khi robot hoạt động trong các kịch bản thương mại thực tế. Nghe có vẻ gần nhất với vòng xoay thương mại: robot vừa làm việc, vừa kiếm tiền, vừa tạo ra dữ liệu huấn luyện. Nhưng ở đây có một cạm bẫy thống kê.

Các kịch bản robot được triển khai sớm nhất ngày nay thường là những kịch bản có ít thay đổi, quy trình cố định nhất và rủi ro kiểm soát nhất, chẳng hạn như kho hàng có cấu trúc cao, nhà máy hoặc môi trường tác vụ đơn nhất. Số lượng dữ liệu sản xuất loại này có thể lớn, nhưng phân bố hẹp, độ lặp lại cao. Một khi mô hình đã học được quy luật cục bộ, mỗi giờ vận hành thêm sẽ mang lại ít thông tin mới hơn.

Dữ liệu triển khai không phải là vô giá trị. Điều thực sự có giá trị thường không phải là vô số các đoạn "hoàn thành nhiệm vụ thành công" thông thường, mà là thất bại, kẹt, đối tượng bất thường, điều kiện biên và nhiễu loạn hiếm gặp. Vấn đề là các mẫu dài hạn này không xuất hiện ổn định theo nhịp độ mà công ty mong muốn; chi phí phát hiện, sàng lọc và xem xét cũng cao hơn.

Nhiều dữ liệu hơn có ích, nhưng các mẫu lặp lại nhanh chóng trở nên đắt đỏ

Garg thận trọng khi tham khảo quy luật scaling của mô hình ngôn ngữ: Tăng dữ liệu thường làm giảm tổn thất mô hình, nhưng lợi nhuận giảm dần. Nếu mẫu lặp lại, gần như lặp lại hoặc đến từ cùng một phân bố hẹp, sự giúp đỡ của dữ liệu bổ sung sẽ giảm nhanh hơn.

Trong lĩnh vực robot, vấn đề này trực quan hơn. Một robot học cách lấy một hộp đóng gói cố định từ một kệ cố định, hàng nghìn lần dạy kèm, thất bại và sửa chữa đầu tiên có thể rất có giá trị. Một khi hành động, đối tượng, ánh sáng và đường đi đã được thu thập nhiều lần, dữ liệu bổ sung giống như sao chép kinh nghiệm cục bộ đã học.

Trong huấn luyện mô hình ngôn ngữ đã có kinh nghiệm tương tự: Dữ liệu lặp lại và gần như lặp lại lãng phí ngân sách huấn luyện, và việc lặp lại quá mức có thể làm hỏng khái quát hóa. Garg không áp dụng trực tiếp các kết luận này vào huấn luyện robot, mà dùng chúng để chỉ ra một hướng: Đo lường giá trị dữ liệu không thể chỉ dựa vào số lượng, mà còn phải xem sự khác biệt giữa các mẫu.

Đối với Physical AI, tính đa dạng có ít nhất hai lớp ý nghĩa. Thứ nhất là cho mô hình thấy nhiều đối tượng, không gian, vật liệu, ánh sáng, che khuất và cách thao tác hơn. Thứ hai là tránh để mô hình hoạt động tốt trong một phân bố nhiệm vụ quá đơn giản, nhưng thất bại khi chuyển sang một kịch bản hơi khác.

Do đó, các trường hợp thất bại dài hạn trở nên quan trọng. Thế giới vật lý thực tế không phân bố đồng đều; các bất thường tần số thấp thường quyết định khả năng thương mại: vật thể hơi lệch, bao bì biến dạng, bề mặt phản chiếu, tay kẹp trượt, con người đột nhiên can thiệp, cảm biến bỏ sót, ma sát mặt đất thay đổi. Ngay cả khi mô hình hoạt động tốt trên các mẫu thông thường, nếu nó không xử lý được các sự kiện đuôi này, việc triển khai vẫn sẽ bị kìm hãm bởi một số ít thất bại.

Vòng xoay triển khai thành công, cần giai đoạn đầu đủ "mới"

Bài viết này thực sự thách thức lộ trình thương mại hóa phổ biến của các công ty trí tuệ vật lý: Đầu tiên triển khai robot trong các kịch bản hẹp, sử dụng điều khiển từ xa của con người để đảm bảo khả năng sử dụng, đồng thời thu thập dữ liệu sản xuất, sau đó sử dụng dữ liệu này để huấn luyện mô hình mạnh hơn, mở ra nhiều kịch bản hơn.

Garg gọi lộ trình này là kiểu "neo-integrator". Nó cố gắng vòng qua chi phí thu thập dữ liệu thuần túy, đặt robot vào sản xuất thương mại, để doanh thu vận hành bù đắp chi phí dữ liệu. So với việc xây dựng nhà máy vận hành từ xa chuyên dụng, lộ trình này nghe có vẻ hiệu quả hơn.

Nhưng vòng xoay có một tiền đề: Dữ liệu được tạo ra trong các kịch bản thương mại giai đoạn đầu phải đủ mới, đủ đa dạng để giúp mô hình chuyển giao sang nhiều nhiệm vụ hơn. Nếu kịch bản triển khai chỉ là các nhiệm vụ hẹp có độ biến đổi thấp, entropy thấp, tùy chỉnh kỹ thuật mạnh, dữ liệu sẽ nhanh chóng bão hòa. Công ty có thể không nhận được vòng xoay năng lực tổng quát, mà là một tập hợp các dự án tùy chỉnh cần tích hợp, bảo trì và xử lý bất thường liên tục.

Điều này mang lại hai loại chi phí. Thứ nhất, mỗi khi bước vào một kịch bản mới, phải đầu tư vào cải tạo môi trường, thích ứng quy trình, đảm bảo thất bại và cơ chế an toàn. Thứ hai, nếu việc triển khai chưa đạt điểm hòa vốn, mở rộng quy mô không nhất thiết là thu thập dữ liệu chi phí thấp, mà cũng có thể là đánh đổi thua lỗ để có được vô số mẫu có tính mới thấp.

Vì vậy, triển khai giai đoạn đầu không phải là vô ích, mà cần được xem xét chi tiết hơn: Nó mang lại bao nhiêu độ phủ nhiệm vụ mới, tạo ra bao nhiêu mẫu thất bại và bất thường, những mẫu này có thể chuyển giao sang các kịch bản khác không, sau khi trừ chi phí phần cứng, nhân lực, bảo trì và tích hợp, mỗi đô la mua được bao nhiêu cải tiến mô hình.

Câu chuyện định giá không thể chỉ hỏi đã tích lũy được bao nhiêu giờ

Lời khuyên của Garg không phải là ngừng thu thập dữ liệu, mà là thay đổi thước đo đánh giá. Tổng số giờ vận hành, số giờ vận hành từ xa và số lượng quỹ đạo có thể là chỉ số vận hành, nhưng không nên được coi trực tiếp là tiến bộ mô hình.

Các câu hỏi có sức giải thích hơn bao gồm: Dữ liệu của một nhiệm vụ đơn lẻ bão hòa khi nào, cần bao nhiêu chi phí tích hợp kỹ thuật để thêm một nhiệm vụ mới, dữ liệu bao phủ bao nhiêu kịch bản và cụm hành động khác nhau, có bao nhiêu dữ liệu sản xuất thực sự là trôi dạt phân bố và mẫu bất thường, có bao nhiêu đoạn thành công thông thường trong luồng triển khai nên được lọc ra thay vì tiếp tục cung cấp cho mô hình.

Tương ứng với ba loại dữ liệu, phân bổ vốn cũng sẽ khác nhau. Dữ liệu quan sát nên ưu tiên chi phí thấp, tính đa dạng và phạm vi phủ rộng, để mở rộng ranh giới năng lực cơ bản. Dữ liệu thao tác từ xa và dạy kèm chi phí cao, sau khi đạt bão hòa nhiệm vụ đơn lẻ, nên chuyển ngân sách sang nhiều nhiệm vụ hơn, thay vì tiếp tục lặp lại cùng một hành động. Dữ liệu triển khai nên tập trung sàng lọc các mẫu thất bại, điều kiện biên và mẫu ngoài phân bố, loại bỏ vô số bản ghi vận hành thông thường có mật độ thông tin thấp.

Quan điểm này có tác động thực tế đến câu chuyện định giá của Physical AI. Một công ty có nhiều robot hơn, thời gian vận hành dài hơn, đội ngũ vận hành từ xa lớn hơn, không tự động có nghĩa là có rào cản mô hình mạnh hơn. Năng lực khó sao chép hơn có thể là liên tục tìm ra dữ liệu dài hạn có giá trị cao, đánh giá khi nào một loại dữ liệu bão hòa và sử dụng chi phí thấp hơn để bao phủ nhiều phân bố nhiệm vụ hơn.

Tuy nhiên, đây vẫn là một góc nhìn phân bổ vốn, chưa phải là kết luận của ngành. Liệu mô hình robot có xuất hiện lợi nhuận quy mô tương tự mô hình ngôn ngữ hay không, liệu dữ liệu triển khai có thể tiếp tục tạo ra thông tin mới trong một số kịch bản chiều cao hay không, hiệu quả chuyển giao giữa các nhiệm vụ khác nhau cao đến đâu, tất cả vẫn cần thêm nhiều kết quả thực nghiệm để trả lời.

Lời nhắc nhở của Garg tập trung vào một câu hỏi cụ thể hơn: "Chỉ số Moneyball" của Physical AI có lẽ không phải là số giờ dữ liệu, mà là số mẫu mới lạ mua được bằng mỗi đô la. Đối với các công ty robot vẫn đang kể câu chuyện vòng xoay dữ liệu, cuối cùng thị trường có thể không nhìn vào tổng thời gian vận hành dài bao nhiêu, mà là trong thời gian đó đã tạo ra bao nhiêu thông tin mới.

Nhấp để tìm hiểu các vị trí tuyển dụng của BlockBeats

Chào mừng bạn tham gia cộng đồng chính thức của BlockBeats:

Nhóm đăng ký Telegram: https://t.me/theblockbeats

Nhóm trao đổi Telegram: https://t.me/BlockBeats_App

Tài khoản Twitter chính thức: https://twitter.com/BlockBeatsAsia

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim