数据飞轮？重复样本？机器人该告别「小时数崇拜」了

Question

Dưới đây là bản dịch tiếng Việt của văn bản đầu vào, tuân thủ tất cả các ràng buộc:

Từng là giáo sư kiêm nhiệm tại Đại học Toronto và hiện là giáo sư tại Georgia Tech, nhà nghiên cứu robot Animesh Garg, trong một bài báo có tựa đề "Moneyball for Physical AI", đã so sánh cuộc đua dữ liệu trong lĩnh vực trí tuệ nhúng (embodied intelligence) với khoảnh khắc "Moneyball" trong lịch sử bóng chày.

Ông muốn thách thức một câu chuyện gọi vốn ngày càng phổ biến: các công ty robot chỉ cần tích lũy nhiều thao tác từ xa hơn, nhiều triển khai thực tế hơn, nhiều giờ vận hành hơn là có thể hình thành vòng xoay dữ liệu (data flywheel). Đối với nhà đầu tư, đây không phải là cuộc tranh luận học thuật suông. Chi phí cấu trúc, tốc độ thương mại hóa và rào cản mô hình của các công ty trí tuệ nhúng thường được gói gọn trong bốn chữ "vòng lặp dữ liệu". Nếu tổng số giờ tích lũy không tương đương với sự tiến bộ hiệu quả của mô hình, thị trường cần đánh giá lại tài sản dữ liệu của các công ty này.

"Giờ dữ liệu" có thể là sự mê tín về tỷ lệ đánh trúng trong ngành robot

Garg mượn phép loại suy kinh điển từ cuốn "Moneyball". Năm 2002, đội Oakland Athletics đã thắng 103 trận với một trong những đội hình có lương thấp nhất giải đấu, chìa khóa không phải là mua cầu thủ đắt hơn, mà là phát hiện ra thị trường đã định giá sai giá trị cầu thủ. Các tuyển trạch viên truyền thống coi trọng tỷ lệ đánh trúng, cướp cơ sở và tư thế, nhưng chỉ số giải thích khả năng ghi điểm của đội tốt hơn là tỷ lệ lên cơ sở (on-base percentage).

Theo ông, Physical AI (Trí tuệ nhân tạo vật lý) cũng có thể đang ở giai đoạn tương tự. Ngành công nhận dữ liệu là thứ không thể thiếu để hướng tới mô hình robot tổng quát, nhưng dễ dàng coi các chỉ số dễ trình bày nhất là chỉ số quan trọng nhất: tổng số giờ thao tác từ xa, số lượng quỹ đạo dạy (teaching trajectories), số lượng robot triển khai, thời gian vận hành trong kịch bản sản xuất.

Cách cung cấp dữ liệu robot và dữ liệu văn bản không giống nhau. Mô hình ngôn ngữ lớn (LLM) có thể thu được lượng lớn văn bản chi phí thấp từ internet, kho mã nguồn, sách và trang web, nút thắt cổ chai thường đến từ sức mạnh tính toán, làm sạch và hiệu quả huấn luyện. Mô hình robot cần dữ liệu có tương tác vật lý, phản hồi hành động và thay đổi môi trường, mỗi giờ dữ liệu hiệu quả phải được tạo ra một cách thực tế, đằng sau đó là chi phí thiết bị, nhân lực, địa điểm, cảm biến, xử lý lỗi và an toàn.

Nhà nghiên cứu robot Ken Goldberg từng dùng "100,000-year data gap" (khoảng cách dữ liệu 100.000 năm) để mô tả khoảng cách giữa dữ liệu robot và dữ liệu AI quy mô internet. Nói chính xác hơn, lượng dữ liệu văn bản và hình ảnh mà các mô hình ngôn ngữ-tầm nhìn lớn hiện đại tiêu thụ, nếu quy đổi thành thời gian đọc hoặc xem của con người, tương đương khoảng 100.000 năm, trong khi robot thiếu dữ liệu tương tác thực tế quy mô tương tự. Nhận định này không đặt ra ngưỡng chính xác cho mô hình robot, mà nhắc nhở ngành: dữ liệu tương tác thế giới thực không thể thu thập chi phí thấp như văn bản trên web.

Đây cũng là lý do Garg phản đối câu chuyện "thao tác từ xa kiểu nhà máy mồ hôi". Một lượng lớn thao tác từ xa bằng con người có thể tạo ra các mẫu huấn luyện giàu hành động, nhưng nếu công ty chỉ đánh giá dữ liệu theo tổng số giờ, vốn có thể chảy vào các mẫu lặp lại, độ khó thấp, mật độ thông tin thấp, thay vì các kịch bản có thể giảm tỷ lệ thất bại nhiều nhất.

Ba loại dữ liệu mua được những thứ không giống nhau

Trong phân loại của Garg, dữ liệu Physical AI đại khái được chia thành ba loại: dữ liệu quan sát, dữ liệu can thiệp và dữ liệu triển khai. Cả ba đều có thể hữu ích, nhưng chi phí, ràng buộc và mật độ thông tin rất khác nhau.

Loại thứ nhất là dữ liệu quan sát, chẳng hạn như video ngôi thứ nhất hoặc ngôi thứ ba. Ưu điểm của nó là chi phí thấp, phạm vi bao phủ rộng, giúp mô hình hiểu đối tượng, không gian, kết quả hành động và phân bố môi trường. Hạn chế cũng rõ ràng: mô hình có thể thấy điều gì xảy ra với con người hoặc vật thể, nhưng không nhất thiết biết robot nên xuất ra hành động nào trong trạng thái cụ thể.

Loại thứ hai là dữ liệu can thiệp, tức là thao tác từ xa, dạy học và các quỹ đạo từ trạng thái đến hành động được tạo ra bởi sự can thiệp của con người. Loại dữ liệu này trực tiếp hơn cho huấn luyện robot, vì nó chứa chuỗi "thấy gì, di chuyển thế nào, chuyện gì xảy ra sau khi di chuyển". Cái giá là mỗi quỹ đạo chất lượng cao đều phải trả tiền, chi phí nhân lực và thiết bị khó giảm nhanh như dữ liệu phần mềm.

Loại thứ ba là dữ liệu triển khai, tức là dữ liệu đo từ xa (telemetry) được tạo ra khi robot vận hành trong kịch bản thương mại thực tế. Nghe có vẻ gần nhất với vòng xoay thương mại: robot vừa làm việc, vừa kiếm tiền, vừa tạo ra dữ liệu huấn luyện. Nhưng có một cạm bẫy thống kê ở đây.

Các kịch bản robot triển khai sớm nhất ngày nay thường cũng là kịch bản ít thay đổi nhất, quy trình cố định nhất, rủi ro kiểm soát nhất, chẳng hạn như kho hàng có cấu trúc cao, nhà máy hoặc môi trường tác vụ đơn nhất. Số lượng dữ liệu sản xuất loại này có thể lớn, nhưng phân bố hẹp, độ lặp lại cao. Một khi mô hình học được quy luật cục bộ, mỗi giờ vận hành thêm sẽ mang lại thông tin mới giảm dần.

Dữ liệu triển khai không phải không có giá trị. Điều thực sự có giá trị thường không phải là các đoạn "hoàn thành nhiệm vụ thành công" thông thường với số lượng lớn, mà là thất bại, kẹt, đối tượng bất thường, điều kiện biên và nhiễu loạn hiếm gặp. Vấn đề là các mẫu đuôi dài này không xuất hiện ổn định theo nhịp điệu mà công ty mong muốn, chi phí phát hiện, sàng lọc và xem xét lại cũng cao hơn.

Nhiều dữ liệu hơn hữu ích, nhưng mẫu lặp lại nhanh chóng trở nên đắt đỏ

Garg khá thận trọng khi vay mượn quy mô hóa (scaling law) của mô hình ngôn ngữ: tăng dữ liệu thường dẫn đến giảm mất mát mô hình, nhưng lợi nhuận giảm dần. Nếu các mẫu lặp lại, gần lặp lại, hoặc đến từ cùng một phân bố hẹp, sự trợ giúp của dữ liệu mới sẽ giảm nhanh hơn.

Áp dụng vào lĩnh vực robot, vấn đề này trực quan hơn. Một robot học cách lấy hộp đóng gói cố định từ kệ cố định, vài nghìn lần dạy, thất bại và sửa chữa đầu tiên có thể rất có giá trị. Một khi hành động, đối tượng, ánh sáng và đường dẫn đã được thu thập lặp đi lặp lại, dữ liệu mới giống như sao chép kinh nghiệm cục bộ đã học.

Trong huấn luyện mô hình ngôn ngữ đã có kinh nghiệm tương tự: dữ liệu lặp lại và gần lặp lại lãng phí ngân sách huấn luyện, lặp lại quá mức có thể làm hỏng tính tổng quát. Garg không trực tiếp áp dụng các kết luận này vào huấn luyện robot, mà dùng chúng để chỉ ra một hướng: đo lường giá trị dữ liệu không chỉ nhìn vào số lượng, mà còn phải xem sự khác biệt giữa các mẫu lớn đến đâu.

Đối với Physical AI, tính đa dạng có ít nhất hai lớp ý nghĩa. Thứ nhất là cho mô hình thấy nhiều đối tượng, không gian, vật liệu, ánh sáng, che khuất và cách thao tác hơn. Thứ hai là tránh mô hình thể hiện tốt trong phân bố tác vụ quá đơn giản, nhưng khi chuyển sang kịch bản hơi khác lại thất bại.

Do đó, các trường hợp thất bại đuôi dài trở nên quan trọng. Thế giới vật lý thực tế không phân bố đồng đều, các bất thường tần số thấp thường quyết định khả năng thương mại: đối tượng đặt lệch một chút, bao bì biến dạng, bề mặt phản chiếu, tay kẹp trượt, con người đột nhiên can thiệp, cảm biến bỏ sót, ma sát mặt đất thay đổi. Dù mô hình thể hiện tốt trên các mẫu thông thường, nếu không xử lý được các sự kiện đuôi này, việc triển khai vẫn bị kìm hãm bởi một số thất bại.

Vòng xoay triển khai chỉ đứng vững nếu kịch bản ban đầu đủ "mới"

Bài báo này thực sự thách thức lộ trình thương mại hóa phổ biến của các công ty trí tuệ nhúng: triển khai robot trong kịch bản hẹp trước, dùng con người điều khiển từ xa đảm bảo khả dụng, đồng thời thu thập dữ liệu sản xuất, sau đó dùng dữ liệu này huấn luyện mô hình mạnh hơn, mở ra thêm nhiều kịch bản.

Garg gọi lộ trình loại này là tư duy "neo-integrator". Nó cố gắng vòng qua chi phí thu thập dữ liệu thuần túy, đặt robot vào sản xuất thương mại, để doanh thu vận hành bù đắp chi phí dữ liệu. So với việc xây dựng nhà máy thao tác từ xa chuyên dụng, con đường này nghe có vẻ hiệu quả hơn.

Nhưng vòng xoay có một tiên đề: dữ liệu do kịch bản thương mại ban đầu tạo ra phải đủ mới, đủ đa dạng, giúp mô hình chuyển đổi sang nhiều tác vụ hơn. Nếu kịch bản triển khai chỉ là các tác vụ hẹp ít biến đổi, entropy thấp, tùy chỉnh kỹ thuật mạnh, dữ liệu sẽ nhanh chóng bão hòa. Công ty có thể không có được vòng xoay năng lực tổng quát, mà là một tập hợp các dự án tùy chỉnh cần tích hợp liên tục, bảo trì và xử lý bất thường.

Điều này dẫn đến hai loại chi phí. Thứ nhất, mỗi khi vào một kịch bản mới, phải đầu tư cải tạo môi trường, thích ứng quy trình, phòng ngừa thất bại và cơ chế an toàn. Thứ hai, nếu bản thân việc triển khai chưa đạt điểm hòa vốn, mở rộng quy mô không nhất thiết là thu thập dữ liệu chi phí thấp, mà cũng có thể là dùng lỗ để đổi lấy lượng lớn mẫu có độ mới thấp.

Vì vậy, triển khai sớm không phải vô ích, nhưng cần xem xét kỹ hơn: nó mang lại bao nhiêu phạm vi tác vụ mới, tạo ra bao nhiêu mẫu thất bại và bất thường, những mẫu này có thể chuyển đổi sang kịch bản khác không, sau khi trừ chi phí phần cứng, nhân lực, bảo trì và tích hợp, mỗi đô la mua được bao nhiêu cải tiến mô hình.

Câu chuyện định giá không thể chỉ hỏi tích lũy bao nhiêu giờ

Lời khuyên của Garg không phải là ngừng thu thập dữ liệu, mà là thay đổi thước đo đánh giá. Tổng số giờ vận hành, giờ thao tác từ xa và số lượng quỹ đạo có thể là chỉ số vận hành, nhưng không nên được coi trực tiếp là tiến bộ mô hình.

Các câu hỏi có sức giải thích hơn bao gồm: dữ liệu của một tác vụ đơn lẻ bão hòa khi nào, chi phí tích hợp kỹ thuật khi thêm một tác vụ mới là bao nhiêu, dữ liệu bao phủ bao nhiêu kịch bản và cụm hành động khác nhau, trong dữ liệu sản xuất có bao nhiêu là trôi dạt phân bố thực sự và mẫu bất thường, có bao nhiêu đoạn thành công thông thường trong luồng triển khai nên được lọc bỏ thay vì tiếp tục đưa vào mô hình.

Tương ứng với ba loại dữ liệu, phân bổ vốn cũng sẽ khác nhau. Dữ liệu quan sát nên ưu tiên chi phí thấp, đa dạng và phạm vi bao phủ rộng, dùng để mở rộng ranh giới năng lực cơ bản. Dữ liệu thao tác từ xa và dạy học chi phí cao, sau khi đạt bão hòa tác vụ đơn lẻ, nên chuyển ngân sách sang nhiều tác vụ hơn, thay vì tiếp tục lặp lại cùng một hành động. Dữ liệu triển khai nên tập trung sàng lọc các mẫu thất bại, điều kiện biên và ngoài phân bố, loại bỏ lượng lớn bản ghi vận hành thông thường có mật độ thông tin thấp.

Quan điểm này có tác động thực tế đến câu chuyện định giá của Physical AI. Một công ty có nhiều robot hơn, thời gian vận hành dài hơn, đội ngũ thao tác từ xa lớn hơn, không tự động có nghĩa là có rào cản mô hình mạnh hơn. Năng lực khó sao chép hơn có thể là tìm kiếm liên tục dữ liệu đuôi dài giá trị cao, phán đoán khi nào một loại dữ liệu nào đó bão hòa, và bao phủ nhiều phân bố tác vụ hơn với chi phí thấp hơn.

Tuy nhiên, đây vẫn là một góc nhìn phân bổ vốn, chưa phải là kết luận cuối cùng của ngành. Liệu mô hình robot có xuất hiện lợi nhuận quy mô tương tự mô hình ngôn ngữ không, liệu dữ liệu triển khai có thể tiếp tục tạo ra thông tin mới trong một số kịch bản chiều cao (high-dimensional) không, hiệu quả chuyển đổi giữa các tác vụ khác nhau cao đến đâu, tất cả đều cần thêm kết quả thực nghiệm để trả lời.

Lời nhắc nhở của Garg tập trung vào một câu hỏi cụ thể hơn: "chỉ số Moneyball" của Physical AI có thể không phải là số giờ dữ liệu, mà là số mẫu mới mua được bằng mỗi đô la. Đối với các công ty robot vẫn đang kể câu chuyện vòng xoay dữ liệu, thị trường cuối cùng có thể không nhìn vào tổng thời gian vận hành dài bao nhiêu, mà là trong thời gian đó thực sự có bao nhiêu thông tin mới được tạo ra.

数据飞轮？重复样本？机器人该告别「小时数崇拜」了

"Giờ dữ liệu" có thể là sự mê tín về tỷ lệ đánh trúng trong ngành robot

Ba loại dữ liệu mua được những thứ không giống nhau

Nhiều dữ liệu hơn hữu ích, nhưng mẫu lặp lại nhanh chóng trở nên đắt đỏ

Vòng xoay triển khai chỉ đứng vững nếu kịch bản ban đầu đủ "mới"

Câu chuyện định giá không thể chỉ hỏi tích lũy bao nhiêu giờ

Chủ đề thịnh hành

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

USMayPCEInflationRisesTo4.1%HighestIn3Years

Đã ghim