Alibaba представила ІІ-моделі для управління роботами - ForkLog

Tool_AI# Alibaba представила ІІ-моделі для управління роботами

Alibaba представила Qwen-Robot Suite — набір ІІ-моделей для роботів і завдань у фізичному середовищі: Qwen-RobotNav для навігації, Qwen-RobotManip для дій з об'єктами і Qwen-RobotWorld для прогнозування розвитку сцени. Команда описала проект як «повний стек для втіленого штучного інтелекту».

📣 Представляємо набір Qwen-Robot — Qwen-RobotNav, Qwen-RobotManip, Qwen-RobotWorld, три базові моделі, повний стек для втіленого інтелекту.

🧭 Qwen-RobotNav — вхід у мобільність.
• Об’єднує 5 завдань навігації в одній моделі: слідування інструкціям, рух до цілі,… pic.twitter.com/noumjTtTeS

— Qwen (@Alibaba_Qwen) 16 червня 2026

Мова йде про програмні моделі, які мають допомагати фізичним агентам сприймати навколишнє середовище, планувати дії та виконувати команди на природній мові. Qwen-Robot Suite вже проходить пілотні випробування у окремих корпоративних клієнтів Alibaba Cloud у сфері робототехніки.

Навіщо Alibaba виводить Qwen у фізичний світ

Великі мовні та мультимодальні моделі вже вміють працювати з текстом, зображеннями, відео та мовою, але цього недостатньо для роботів. Фізичним агентам потрібно не лише розуміти команду, а й перетворювати її у рух, враховувати простір, властивості об'єктів, обмеження сенсорів і наслідки дій.

Alibaba називає це напрямком physical AI, або «втілений штучний інтелект». У такому підході модель має працювати не лише з цифровими даними, а й із фізичним середовищем: переміщатися, знаходити об'єкти, керувати маніпуляторами та прогнозувати, що станеться після дії.

Qwen-RobotNav: п’ять завдань навігації в одній моделі

Qwen-RobotNav відповідає за навігацію. Модель об’єднує п’ять груп завдань:

  • слідування інструкціям;
  • рух до заданої точки;
  • пошук об'єктів;
  • відстеження цілі;
  • автономне керування.

За даними Alibaba, Qwen-RobotNav побудована на базі Qwen3-VL і навчена на 15,6 млн зразків, пов’язаних із плануванням маршрутів і візуально-мовним роздумуванням.

Компанія заявила 76,5% успішності на VLN-CE RxR і 90% на EVT-Bench. В Alibaba також уточнили, що модель може працювати як інструмент для більш великих систем агентів: верхньорівнева модель планує задачу, а Qwen-RobotNav відповідає за переміщення.

Джерело: Qwen. У демонстраціях Alibaba описує сценарії типу пошуку втраченого предмета в приміщенні або перевірки, чи відкритий конкретний об’єкт у будівлі. У таких завданнях робот має не просто рухатися, а збирати візуальні докази і повертати відповідь користувачу.

Qwen-RobotManip: дії з об'єктами

Qwen-RobotManip призначена для фізичних дій з об'єктами. Модель має допомагати роботам брати, переміщати і розміщувати предмети, а також переносити навички між різними типами пристроїв.

Джерело: Qwen-RobotManip. Одна з ключових проблем робототехніки полягає в тому, що роботи описують дії по-різному. Маніпулятор, дворукова платформа, робот із кистю або мобільна система використовують різні координати, суглоби і формати команд. Qwen-RobotManip намагається привести ці дані до спільного уявлення, щоб навчання на одному типі робота допомагало іншому.

Для навчання Alibaba використала понад 38 100 годин даних. У цей обсяг увійшли 11 320 годин відкритих робототехнічних даних, 1933 години відео дій людини з першої особи і 24 808 годин синтетичних робототехнічних демонстрацій, створених на основі таких відео.

Компанія заявила, що модель зайняла перше місце в RoboChallenge Table30 v1 у треку універсальних моделей. За даними Alibaba, Qwen-RobotManip також показала стійкість до нових інструкцій, незнайомих об’єктів і переносу навичок між різними роботами.

Qwen-RobotWorld: модель світу для роботів

Qwen-RobotWorld — відеомодель світу, керована природною мовою. Вона має прогнозувати, як розвиватиметься сцена після заданої дії.

Джерело: Qwen-RobotWorld.Наприклад, модель отримує поточне спостереження і текстову команду, а потім генерує ймовірний майбутній стан середовища. Такий підхід може використовуватися для маніпуляцій, автономного керування, навігації, планування і створення синтетичних навчальних даних для роботів.

Для навчання Qwen-RobotWorld команда зібрала корпус Embodied World Knowledge. Він включає 8,6 млн пар «відео-текст» і понад 200 млн кадрів, охоплює понад 20 типів роботичних платформ і понад 500 категорій дій.

Alibaba заявила, що Qwen-RobotWorld зайняла перше місце в EWMBench і DreamGen Bench, а також перевершила всі відкриті моделі в WorldModelBench і PBench. У технічному описі також стверджується, що модель демонструє високу узгодженість із базовими фізичними закономірностями — рухом, збереженням маси, рідинами і гравітацією.

До масових роботів ще далеко

Незважаючи на заявлені результати, Qwen-Robot Suite поки залишається набором моделей, а не готовою комерційною робототехнічною платформою. Реальне впровадження стикається з шумом сенсорів, зносом приводів, нестандартними ситуаціями, помилками сприйняття і величезною кількістю рідкісних сценаріїв. Багато бенчмарків, на яких порівнюють такі системи, проходять у симуляції або в обмежених експериментальних умовах.

Alibaba також не розкрила вартість доступу, терміни публічного запуску і список клієнтів, які вже тестують Qwen-Robot Suite.

Нагадаємо, у квітні Alibaba Cloud представила агентну модель Qwen3.6-Plus із контекстним вікном 1 млн токенів і підтримкою зовнішніх інструментів.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено