Алібаба випустила три моделі Qwen-Robot! Навігація робота, управління, фізичне моделювання — все в одному.

Алібаба команда Qwen у вівторок випустила Qwen-Robot Suite, набір з трьох базових моделей, що складають «повний стек інтелекту з тілом». Qwen-RobotNav відповідає за навігацію, Qwen-RobotManip — за механічне управління, Qwen-RobotWorld — за симуляцію фізичного світу. Три моделі працюють незалежно, але разом утворюють «час Android» у сфері робототехніки, це операційна система, а не апаратне забезпечення.

Qwen-RobotNav: п’ятив в один навігаційна модель

Навігаційна модель об’єднує п’ять завдань: слідування команді, навігація до цільової точки, пошук об’єктів, слідкування за ціллю та автономне водіння, кожне з яких вимагає різних стратегій візуальної пам’яті. Більшість моделей фокусуються лише на одній стратегії, тоді як Qwen-RobotNav пропонує параметризований інтерфейс: бюджет токенів, затухання за часом, вагу кожного кадру, планувальник може переналаштовуватися під час виконання.

Ця модель тренувалася на 15,6 мільйонів зразків і показала високий рівень успішності — 76,5% у тесті VLN-CE RxR (на реальному візуальному та мовному навігаційному середовищі), а також 90% у EVT-Bench (відстеження рухомої цілі).

Qwen-RobotManip: міжроботне управління

Різні роботи мають різні способи подання рухів: робот-маніпулятор Franka використовує кутові значення суглобів, дворукий робот ALOHA — положення і напрямок щелеп, людоподібний робот — цілісні координати тіла. Алібаба зібрала близько 38 100 годин тренувальних даних з відкритих баз даних роботів і людських відео, не покладаючись на приватні дані.

Ця модель посіла перше місце у тесті RoboChallenge Table30-v1, випередивши попередні методи більш ніж у 20 разів.

Qwen-RobotWorld: мова як універсальний інтерфейс

Це найамбіційніша модель — відео-модель світу, що базується на мові, яка використовує природну мову як універсальний інтерфейс дій. Команда «підняти червону чашку і налити воду у квітку» підходить для щелеп, автівок або навігаційних агентів.

Цей тілесний світовий корпус знань містить 8,6 мільйонів пар відео та тексту, 200 мільйонів кадрів, охоплює управління (590 тисяч зразків, понад 1300 навичок, понад 20 форм), автономне водіння (Waymo, NVIDIA PhysicalAI-AD), внутрішню навігацію та перенесення між 14 видами механічних рук. Модель посіла перше місце у тестах EWMBench і DreamGen Bench, а також отримала максимальні бали у фізичних тестах на відповідність законам Ньютона, збереження маси, гідродинаміку та гравітацію.

Як порівняти з західними лабораторіями?

Західні лабораторії, такі як Google DeepMind, Nvidia, Figure і Physical Intelligence, також прагнуть до подібних цілей, але здебільшого зосереджені на навігації або управлінні, а не на єдиному модульному наборі. Внутрішня вертикальна інтеграція Алібаби — від чіпів до застосунків — означає, що вона контролює повний екосистемний ланцюг, і всі ці моделі відкриті.

Проте розробники наголошують, що це — програмне забезпечення, а не фізичні роботи, і реальне впровадження у домашніх сценаріях займе ще кілька років. Алібаба наразі не оголосила цін, графіки або плани пілотних проектів для клієнтів.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено