Alibaba giới thiệu các mô hình AI để điều khiển robot - ForkLog

Tool_AI# Alibaba giới thiệu các mô hình AI để điều khiển robot

Alibaba giới thiệu Qwen-Robot Suite — bộ các mô hình AI dành cho robot và các nhiệm vụ trong môi trường vật lý: Qwen-RobotNav cho định hướng, Qwen-RobotManip cho các hành động với đối tượng và Qwen-RobotWorld để dự đoán sự phát triển của cảnh vật. Đội ngũ mô tả dự án như là “ngăn xếp đầy đủ cho trí tuệ thể hiện”.

📣 Giới thiệu bộ Qwen-Robot — Qwen-RobotNav, Qwen-RobotManip, Qwen-RobotWorld, ba mô hình nền tảng, một ngăn xếp đầy đủ cho trí tuệ thể hiện.

🧭 Qwen-RobotNav — cổng vào cho khả năng di chuyển.
• Tổng hợp 5 nhiệm vụ định hướng trong một mô hình: theo hướng dẫn, đi đến điểm mục tiêu,… pic.twitter.com/noumjTtTeS

— Qwen (@Alibaba_Qwen) 16 tháng 6, 2026

Đây là các mô hình phần mềm nhằm giúp các tác nhân vật lý cảm nhận môi trường xung quanh, lập kế hoạch hành động và thực hiện lệnh bằng ngôn ngữ tự nhiên. Qwen-Robot Suite hiện đang trải qua các thử nghiệm thử nghiệm tại một số khách hàng doanh nghiệp của Alibaba Cloud trong lĩnh vực robot học.

Tại sao Alibaba đưa Qwen vào thế giới vật lý

Các mô hình ngôn ngữ lớn và đa phương tiện đã có khả năng làm việc với văn bản, hình ảnh, video và giọng nói, nhưng điều này chưa đủ cho robot. Các tác nhân vật lý cần không chỉ hiểu lệnh mà còn chuyển đổi nó thành chuyển động, tính đến không gian, đặc tính của đối tượng, giới hạn của cảm biến và hậu quả của hành động.

Alibaba gọi đây là hướng tiếp cận trí tuệ nhân tạo vật lý, hay “AI thể hiện”. Trong cách tiếp cận này, mô hình không chỉ làm việc với dữ liệu số mà còn với môi trường vật lý: di chuyển, tìm đối tượng, điều khiển các bộ manipulator và dự đoán những gì sẽ xảy ra sau hành động.

Qwen-RobotNav: năm nhiệm vụ định hướng trong một mô hình

Qwen-RobotNav chịu trách nhiệm về định hướng. Mô hình tổng hợp năm nhóm nhiệm vụ:

  • theo hướng dẫn;
  • di chuyển đến điểm đã định;
  • tìm kiếm đối tượng;
  • theo dõi mục tiêu;
  • tự lái xe.

Theo dữ liệu của Alibaba, Qwen-RobotNav dựa trên Qwen3-VL và được huấn luyện trên 15,6 triệu mẫu dữ liệu liên quan đến lập kế hoạch tuyến đường và suy luận hình ảnh-ngôn ngữ.

Công ty tuyên bố đạt 76,5% thành công trên VLN-CE RxR và 90% trên EVT-Bench. Alibaba cũng làm rõ rằng mô hình có thể hoạt động như một công cụ cho các hệ thống tác nhân lớn hơn: mô hình cấp cao lập kế hoạch nhiệm vụ, còn Qwen-RobotNav đảm nhận việc di chuyển.

Nguồn: Qwen. Trong các buổi trình diễn, Alibaba mô tả các kịch bản như tìm vật bị mất trong nhà hoặc kiểm tra xem một đối tượng cụ thể có mở hay không trong tòa nhà. Trong các nhiệm vụ này, robot không chỉ đơn thuần di chuyển mà còn phải thu thập bằng chứng hình ảnh và trả lời người dùng.

Qwen-RobotManip: hành động với đối tượng

Qwen-RobotManip dành cho các hành động vật lý với đối tượng. Mô hình này giúp robot cầm, di chuyển và đặt vật thể, cũng như chuyển đổi kỹ năng giữa các loại thiết bị khác nhau.

Nguồn: Qwen-RobotManip. Một trong những vấn đề chính của robot học là các robot mô tả hành động theo nhiều cách khác nhau. Manipulator, nền tảng hai tay, robot có tay cầm hoặc hệ thống di động đều sử dụng các hệ tọa độ, khớp nối và định dạng lệnh khác nhau. Qwen-RobotManip cố gắng chuẩn hóa các dữ liệu này để việc huấn luyện trên một loại robot có thể giúp cho các loại khác.

Để huấn luyện, Alibaba đã sử dụng hơn 38.100 giờ dữ liệu. Trong đó có 11.320 giờ dữ liệu robot mở, 1.933 giờ video hành động của con người từ góc nhìn thứ nhất và 24.808 giờ các trình diễn robot tổng hợp dựa trên các video này.

Công ty tuyên bố mô hình đạt vị trí số một trong RoboChallenge Table30 v1 trong phân đoạn các mô hình tổng quát. Theo dữ liệu của Alibaba, Qwen-RobotManip còn thể hiện khả năng chống chịu với các lệnh mới, đối tượng chưa quen và chuyển đổi kỹ năng giữa các robot khác nhau.

Qwen-RobotWorld: mô hình thế giới cho robot

Qwen-RobotWorld là mô hình thế giới dựa trên video, điều khiển bằng ngôn ngữ tự nhiên. Nó dự đoán cách cảnh vật sẽ phát triển sau hành động đã cho.

Nguồn: Qwen-RobotWorld. Ví dụ, mô hình nhận diện hiện trạng và lệnh văn bản, rồi tạo ra trạng thái tương lai có khả năng xảy ra của môi trường. Phương pháp này có thể dùng cho các thao tác, lái xe tự động, định hướng, lập kế hoạch và tạo dữ liệu huấn luyện tổng hợp cho robot.

Để huấn luyện Qwen-RobotWorld, đội ngũ đã thu thập bộ dữ liệu Embodied World Knowledge. Nó gồm 8,6 triệu cặp “video- văn bản” và hơn 200 triệu khung hình, bao phủ hơn 20 loại nền tảng robot và hơn 500 loại hành động.

Alibaba tuyên bố Qwen-RobotWorld đạt vị trí số một trong EWMBench và DreamGen Bench, cũng như vượt qua tất cả các mô hình mở trong WorldModelBench và PBench. Trong mô tả kỹ thuật, còn khẳng định mô hình thể hiện tính nhất quán cao với các quy luật vật lý cơ bản — chuyển động, bảo toàn khối lượng, chất lỏng và trọng lực.

Chưa phải lúc để robot hàng loạt ra đời

Dù đã công bố các kết quả, nhưng Qwen-Robot Suite vẫn chỉ là bộ các mô hình, chứ chưa phải là nền tảng robot thương mại hoàn chỉnh. Việc triển khai thực tế gặp phải nhiễu cảm biến, mài mòn động cơ, các tình huống không chuẩn, lỗi cảm nhận và hàng loạt các kịch bản hiếm gặp. Nhiều benchmark, so sánh các hệ thống này, đều thực hiện trong mô phỏng hoặc trong các điều kiện thử nghiệm hạn chế.

Alibaba cũng chưa tiết lộ chi phí truy cập, thời gian ra mắt công khai và danh sách khách hàng đã thử nghiệm Qwen-Robot Suite.

Nhắc lại, vào tháng 4, Alibaba Cloud đã giới thiệu mô hình tác nhân Qwen3.6-Plus với cửa sổ ngữ cảnh 1 triệu token và hỗ trợ các công cụ bên ngoài.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim