Cũng giống như GPT có thể luyện prompt, ghi chép công việc của bạn thành skill có thể tái sử dụng, nó cũng sẽ kết tinh những lần thất bại và sửa chữa của robot thành kinh nghiệm có thể tiếp tục gọi lại sau này.

Chỉ khác là, nó không review code, mà là quá trình hoạt động của robot.

Mỗi khi robot thực hiện nhiệm vụ, ASPIRE sẽ ghi lại các quá trình như nhận thức, điều hướng, cầm nắm, va chạm, lập kế hoạch chuyển động.

GPT / Claude được gọi đằng sau nó sẽ giống như một nhà nghiên cứu, đánh giá xem vấn đề ở đâu trong nhiệm vụ, lặp lại chương trình. Nếu chạy thành công, thì kinh nghiệm kết tinh lại được ghi vào Skill.

Từ đó, robot có thể học liên tục thông qua viết code, xem dấu vết thực thi, sửa chương trình, kết tinh kỹ năng.

Và điều này, không chỉ đơn giản là luyện Skill từ kinh nghiệm robot.

Giám đốc robot của NVIDIA, Jim Fan còn cho biết ASPIRE đại diện cho một mô hình học tập liên tục hoàn toàn mới.

Trong đó:

Huấn luyện, từ giảm gradient chuyển thành mài giũa kỹ năng liên tục (Skill Refinement);
Mô hình đã huấn luyện, tương ứng không còn chỉ là một đống trọng số dấu phẩy động, mà là một thư viện kỹ năng robot mở rộng liên tục (Sensorimotor Skills);
Huấn luyện phân tán, thì trở thành một nhóm Agent tự luyện tập các kỹ năng khác nhau, rồi tổng hợp kinh nghiệm vào cùng một thư viện kỹ năng.

Kết quả huấn luyện, không nhất thiết là trọng số

Mặc dù phần mở đầu đã giới thiệu kha khá, nhưng trước khi nói về cách đổi mới mô hình huấn luyện robot, chúng ta hãy lạc đề một chút về bối cảnh.

Tên đầy đủ của ASPIRE là Agentic Skill Programming through Iterative Robot Exploration.

ASPIRE cho phép robot sử dụng code để thực hiện nhiệm vụ, sau khi thất bại xem dấu vết thực thi đa phương thức, rồi sửa chương trình, lưu lại kinh nghiệm đã sửa vào một thư viện kỹ năng (skills library) ngày càng dày lên.

Skill ở đây, mặc dù về bản chất vẫn là một đoạn ngữ cảnh cấp cho mô hình lớn, nhưng lại kết tinh một bộ kinh nghiệm sửa lỗi code đã được xác thực (Code Repair Pattern), giúp robot biết khi gặp một loại vấn đề nào đó, cần sửa đổi chương trình điều khiển như thế nào.

Ví dụ, khi robot chuẩn bị nhặt một cái radio, đã nhận dạng được mục tiêu, nhưng không thể đến gần.

Agent có thể phân tích ra nguyên nhân không phải do nhận dạng sai, mà là do các điểm mục tiêu do Planner đưa ra đều nằm trong vùng đệm va chạm của chướng ngại vật.

Từ đó, ASPIRE sẽ tổng kết ra một Skill mới dựa trên kinh nghiệm lần này:

Nếu gặp loại lập kế hoạch thất bại này, hãy thử tiếp cận lại mục tiêu từ các góc khác nhau như 45°, 90°, 180°, cho đến khi tìm được một đường đi không va chạm.

Sau này gặp lại tình huống tương tự, dù mục tiêu là radio, lò vi sóng hay đồ nội thất khác, kinh nghiệm này có thể được dùng lại trực tiếp, không cần thử sai lại.

Nói đến đây, bạn có thể tò mò. Huấn luyện robot, chẳng phải đều là làm dữ liệu, giảm gradient, trọng số mô hình, thu thập dữ liệu thực, chuyển giao từ mô phỏng sang thực tế sao?

Sao bỗng nhiên lại thành tích lũy skill?

Ở đây cần nói trước một mô hình rất hot gần đây, Code as Policy.

Khác với các mô hình chính sách end-to-end như VLA, Code as Policy không để mô hình trực tiếp xuất ra hành động robot, mà để mô hình lớn viết một chương trình điều khiển robot có thể thực thi.

Trong chương trình có thể gọi các module nhận thức, API lập kế hoạch và các nguyên thủy điều khiển, như nhận dạng vật thể, lập kế hoạch đường đi, di chuyển cánh tay robot, thực hiện cầm nắm.

Nhờ vậy, hành vi của robot không còn hoàn toàn ẩn trong trọng số mạng nơ-ron, mà trở thành mã thao tác có thể thực thi.

Có code, thì có thể bị các mô hình Agent mạnh đến khủng khiếp hiện nay kiểm tra, sửa đổi, gỡ lỗi, tối ưu hóa tiếp.

Nhưng trước đây, Code as Policy luôn có hai vấn đề.

Thứ nhất, robot thất bại, hệ thống thường chỉ biết "nhiệm vụ chưa hoàn thành", nhưng không biết chính xác là do nhận thức sai, cầm nắm không chắc, lập kế hoạch đường đi va chạm, hay hành động phục hồi có vấn đề.

Thứ hai, và quan trọng hơn, nó không có trí nhớ.

Sau khi một nhiệm vụ hoàn thành, các giải pháp sửa lỗi, chiến lược phục hồi, cách viết prompt được phát hiện trong quá trình gỡ lỗi sẽ bị vứt bỏ, lần sau gặp vấn đề tương tự, lại phải làm lại từ đầu.

Đây cũng là lý do tại sao Jim Fan nói:

(Nhờ có ASPIRE) Khi robot hoàn thành nhiệm vụ thứ 100, cuối cùng nó cũng không còn như khi hoàn thành nhiệm vụ đầu tiên mà không biết gì.

Nói thẳng ra, toàn bộ quá trình này giống hệt như một kỹ sư robot con người:

Khi một chương trình robot thất bại, kỹ sư sẽ xem lại quá trình thực thi, xem kết quả nhận thức, phân tích quỹ đạo chuyển động, đánh giá xem là cầm nắm sai, lập kế hoạch sai, hay một hành động phục hồi nào đó không kết nối được.

Sau khi sửa xong, kỹ sư sẽ ghi nhớ kinh nghiệm lần này. Lần sau gặp lại vật thể ở mép bàn, tay nắm ngăn kéo, điều hướng không gian hẹp, sẽ không bắt đầu từ con số không.

Còn ASPIRE làm, chính là giao cơ chế tích lũy kinh nghiệm này cho agent. Nó không chỉ để mô hình lớn viết code robot, mà còn để mô hình lớn trong môi trường thực thi thử đi thử lại, xem đi xem lại, sửa đi sửa lại, cuối cùng kết tinh kinh nghiệm sửa lỗi đã được xác thực thành Skill.

Vì vậy, trong ASPIRE, huấn luyện không chỉ là giảm gradient.

Quá trình huấn luyện trở thành Skill Refinement; sản phẩm huấn luyện, không chỉ là trọng số mô hình, mà là một Thư viện Kỹ năng (Skills Library) mà robot không ngừng tích lũy và phát triển.

Pipeline ba giai đoạn

Trong bài báo, ý tưởng này được thực hiện dưới dạng pipeline ba giai đoạn.

Đầu tiên là robot execution engine, tức engine thực thi robot.

Sau khi chương trình robot truyền thống thất bại, hệ thống có thể chỉ cho bạn biết nhiệm vụ chưa hoàn thành.

ASPIRE sẽ phân tích thất bại, mỗi lần nhận thức, lập kế hoạch, cầm nắm, gọi điều khiển, đều để lại đầu vào, đầu ra, bằng chứng hình ảnh và nhật ký lỗi.

Giống như kỹ sư con người khi chỉnh robot sẽ xem lại video, xem dấu vết, kiểm tra xem là nhận thức sai hay cầm nắm hỏng, còn ASPIRE giao hành động này cho coding agent.

Tiếp theo là skill library. Sau khi agent sửa xong chương trình, nó sẽ không vứt bỏ kinh nghiệm lần này, mà kết tinh thành kiến thức có thể tái sử dụng.

Trong thư viện kỹ năng trên trang web có thể thấy các mục rất cụ thể, như cách viết prompt SAM3 text, cách tiếp cận nhiều góc đối với vật thể ở mép bàn, cách lọc phát hiện giả cho tay nắm ngăn kéo, loại motion primitive nào nên dùng khi đẩy vật thể phẳng.

Những thứ này không giống trọng số mô hình truyền thống, chúng giống như sổ ghi chép đau thương của lập trình viên robot.

Cuối cùng là evolutionary search.

Một agent không chỉ thử theo một đường sửa lỗi duy nhất, hệ thống sẽ tạo ra nhiều chương trình điều khiển ứng viên, cho chúng chạy trong môi trường thực thi, rồi tiếp tục lặp lại dựa trên các chương trình sống sót và dấu vết thất bại.

Trong kỹ thuật phần mềm, coding agent đã quen với việc viết code, chạy test, xem trace, sửa bug. ASPIRE làm, chính là di chuyển vòng lặp này vào thế giới vật lý.

Xác thực thực nghiệm

Để xác thực phương pháp này, bài báo đã thử nghiệm trên ba chuẩn mực robot kinh điển, bao gồm LIBERO-Pro, Robosuite và BEHAVIOR-1K, lần lượt bao phủ các tác vụ tổng quát hóa thao tác, tác vụ tiếp xúc nhiều và tác vụ gia đình dài hạn.

Kết quả tổng thể đều tốt hơn rõ rệt so với các phương pháp Code as Policy trước đây.

Ví dụ, trong nhiệm vụ Bimanual Handover (chuyển giao vật thể bằng hai tay) của Robosuite, ASPIRE đã nâng tỷ lệ thành công từ 20% lên 92%.

Về khả năng tổng quát hóa.

Nghiên cứu trước tiên tích lũy Skill Library trên LIBERO-90, sau đó trực tiếp chuyển giao sang nhiệm vụ dài LIBERO-Pro Long chưa từng thấy, giữa quá trình không có huấn luyện tiếp cho nhiệm vụ mới, cũng không cập nhật thư viện kỹ năng.

Kết quả cho thấy, khi thư viện kỹ năng ngày càng phong phú, tỷ lệ thành công của robot trên nhiệm vụ mới cũng tăng dần, từ gần như không làm được, cuối cùng đạt tới 31%. Nói cách khác, Skill Library càng dày, robot càng ít giống một người mới.

Giới thiệu tác giả

Cuối blog kỹ thuật, NVIDIA cũng công bố danh sách tác giả đầy đủ.

Vẫn là những gương mặt quen thuộc của nhóm GEAR: Jim Fan, Zhu Yuke, Guanzhi Wang, Shi Guanya và những người khác.

Ba tác giả đầu tiên là đồng đóng góp.

Trong đó, Runyu Lu hiện là nghiên cứu sinh tiến sĩ năm thứ hai tại Đại học Michigan, đang thực tập tại GEAR; Yuubo Wu đến từ Đại học Illinois Urbana-Champaign (UIUC), Ethan Kou đến từ Đại học California, Berkeley, hiện còn là sinh viên đại học.

Đáng chú ý, ngay hôm qua, NVIDIA cũng thông báo mở rộng tuyển dụng nhóm robot trong nước, mở nhiều vị trí tại Bắc Kinh, Thượng Hải, Thâm Quyến, bao phủ các hướng như trí tuệ nhúng, mô phỏng, triển khai robot và kiến trúc giải pháp.

Bài viết từ: Lượng Tử Vị (Quantum Position)

Tuyên bố miễn trừ rủi ro và điều khoản

Thị trường có rủi ro, đầu tư cần thận trọng. Bài viết này không cấu thành lời khuyên đầu tư cá nhân, cũng không xem xét đến mục tiêu đầu tư, tình hình tài chính hoặc nhu cầu đặc biệt của từng người dùng. Người dùng cần xem xét liệu bất kỳ ý kiến, quan điểm hoặc kết luận nào trong bài viết có phù hợp với hoàn cảnh cụ thể của họ hay không. Đầu tư theo đó, tự chịu trách nhiệm.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateCompletesDividendDistribution
132,91K Phổ biến
#
StrategyBuybackSurges12%
1,11M Phổ biến
#
IsraelStrikesIranBTCPlunges
67,27K Phổ biến
#
PredictWorldCupShare20000U
562,61K Phổ biến
#
TrumpDisclosesOver100MBTCETH
3,83M Phổ biến

Đã ghim

sơ đồ trang web

Khoảnh khắc Kỹ năng của Trí tuệ Nhúng! NVIDIA phát hành mã nguồn mở thư viện kỹ năng robot, Jim Fan: Mô hình đã thay đổi

Kết quả huấn luyện, không nhất thiết là trọng số

Pipeline ba giai đoạn

Xác thực thực nghiệm

Giới thiệu tác giả

Chủ đề thịnh hành

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

Đã ghim