Алибаба выпустила три модели Qwen-Robot! Навигация робота, управление, физическое моделирование — всё в одном.

АлиБаба команда Qwen во вторник выпустила Qwen-Robot Suite, набор из трех базовых моделей, представляющих собой «полный стек интеллектуальных систем с телесной реализацией».
Qwen-RobotNav отвечает за навигацию, Qwen-RobotManip — за механическое управление, Qwen-RobotWorld — за моделирование физического мира.
Три модели работают независимо друг от друга, объединяясь в «Android-час» в области робототехники — это операционная система, а не аппаратное обеспечение.

Qwen-RobotNav: пятифункциональная модель навигации

Модель навигации объединяет задачи следования за командой, навигации к целевой точке, поиска объектов, отслеживания целей и автономного вождения, каждая из которых требует разной стратегии визуальной памяти.
Большинство моделей фокусируются на одной стратегии, в то время как Qwen-RobotNav предлагает параметризуемый интерфейс: лимит токенов, затухание по времени, вес каждого кадра, что позволяет планировщику перенастраивать модель во время выполнения.

Эта модель обучалась на 15,6 миллионах образцов и достигла успешности 76,5% в тесте VLN-CE RxR (визуальная и языковая навигация в реальной среде), а также 90% в EVT-Bench (отслеживание движущихся целей).

Qwen-RobotManip: межроботное управление

Разные роботы используют разные способы представления движений: робот-манипулятор Franka — по углам суставов, робот ALOHA — по положению и ориентации захвата, человекоподобный робот — по всему телу.
АлиБаба синтезировала около 38 100 часов обучающих данных из открытых баз данных роботов и видеоматериалов человека, не полагаясь на закрытые источники.

Модель заняла первое место в тесте RoboChallenge Table30-v1, превзойдя предыдущие методы на 20%.

Qwen-RobotWorld: язык как универсальный интерфейс

Это самая амбициозная модель — видеомодель мира, основанная на языке, использующая естественный язык как универсальный интерфейс для действий.
Команда «подними красную чашку и налей воду в цветок» подходит для захвата, автономных автомобилей и навигационных агентов.

Модель содержит корпус данных о телесных знаниях мира: 8,6 миллиона пар видео-текст, 200 миллионов кадров, охватывающих управление (590 тысяч образцов, 1300+ навыков, 20+ форм), автономное вождение (Waymo, NVIDIA PhysicalAI-AD), внутреннюю навигацию и межманипуляторный перенос между 14 видами роботов.
В тестах EWMBench и DreamGen Bench модель занимает первое место, а в тестах на соответствие законам Ньютона, сохранение массы, гидродинамику и гравитацию набрала максимальные баллы.

Как по сравнению с западными лабораториями?

Западные лаборатории, такие как DeepMind Google, Nvidia, Figure и Physical Intelligence, также преследуют схожие цели, но в основном сосредоточены на навигации или управлении, а не на создании единого сборного набора.
Вертикальная интеграция от чипов до приложений в АлиБаба означает контроль всей экосистемы, и все эти модели открыты для общественности.

Однако разработчики предупреждают, что это программные модели, а не реальные роботы, и их внедрение в бытовые сценарии потребует еще нескольких лет.
АлиБаба пока не объявила цены, сроки или планы пилотных проектов за пределами списка клиентов.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено