Диалог с основателем Yuanli Lingji Тан Вэньбинем: чистый путь "мировой модели" не работает

Операция по сбору данных для телесного интеллекта идет тихо, но уверенно.

В январе этого года Центр инноваций гуманоидных роботов в Хубэе передал компании 智元机器人 тысячи часов тренировочных данных, что стало первой в стране сделкой по индивидуализированной торговле данными для гуманоидных роботов.

Крупные игроки отрасли заявляют о создании крупнейшего в мире центра сбора данных для телесного интеллекта с максимально полным охватом сценариев, планируя привлечь более 100 тысяч внутренних сотрудников и до 500 тысяч внешних участников — начав беспрецедентную «человеческую волну».

За рубежом, корейская компания Robotis в январе открыла дочернее предприятие в Узбекистане, планируя на участке площадью 110 000 м² построить огромный «фабрику данных» для сбора поведения роботов.

Платные по часам индивидуальные сделки, мобилизация сотен тысяч человек, строительство фабрик в Средней Азии — все эти меры отражают глубокую «тревогу за данные» в индустрии телесного интеллекта.

В отличие от крупных языковых моделей, развивающихся на интернет-текстах, телесный интеллект требует понимания мира и взаимодействия с реальностью, что предъявляет более высокие требования к достоверности данных и модальностям.

Это одна из сложных задач, которую сейчас решает основатель и CEO компании 原力灵机 唐文斌.

Обратимся к прошлому: более широко известен он как соучредитель и CTO компании旷视科技 — звезды предыдущей волны AI-бума.

За год существования, 原力灵机 уже привлекла более 1 миллиарда юаней инвестиций, получив поддержку от Alibaba, NIO, 君联、启明 и других ведущих фондов.

На сегодняшний день компания выпустила свой первый крупномодельный базовый телесный модель DM0 и достигла стратегического партнерства с 华勤技术, обеспечив массовое производство и поставку роботов для сбора данных DOS‑W1.

После предыдущего этапа внедрения AI, 唐文斌 стал более трепетно относиться к отрасли.

В недавнем интервью с 华尔街见闻·全天候科技 он рассказал о подходе 原力灵机 к сбору данных: не полагаясь на один источник, а используя «качество✖, количество✖, разнообразие✖» в распределенной системе, чтобы заполнить пространство возможностей робота.

Он считает, что создание данных через генерацию с помощью моделей мира — путь сложный, и более перспективной является интеграция модели мира с VLA (визуально-языково-действийной) моделью, которая не только предсказывает будущее, но и позволяет выводить точные действия на основе этого предсказания.

Пока игроки рынка «запасают» данные разными способами, рынок ждет, кто же «останется в выигрыше».

Ниже — расшифровка диалога.

Подробности о сборе данных

全天候科技:Могли бы вы поделиться своим подходом к сбору данных?

唐文斌: Сейчас мы в основном имитируем усиленное обучение.

Это включает моделирование распределения данных. Наша цель — максимально заполнить пространство возможностей робота, чтобы он видел как можно больше. Важна способность распознавать новые сценарии — ценность данных именно в этом. Поэтому сбор данных ведется вокруг открытых сред и реальных сценариев.

При этом мы стараемся сохранять высокое качество данных и одновременно расширять их разнообразие, поэтому считаем, что сбор данных — это баланс «качества✖, количества✖ и разнообразия✖».

全天候科技:Как именно вы собираете эти данные?

唐文斌: На самом деле, мы не полагаемся на один источник данных — это нецелесообразно. Используем комбинацию методов. В реальных устройствах собираем данные с помощью калиброванных сенсоров, например, с экзоскелетов, но это дорого.

Также собираем данные с помощью безобъектных камер и камер с первого лица, формируя более крупные датасеты — это промежуточный вариант между реальными и синтетическими данными.

Кроме того, есть интернет-данные с меньшими затратами.

全天候科技:Что такое безобъектный сбор данных?

唐文斌: Безобъектный сбор означает, что устройство — например, перчатка или ручной захват — не имеет механической руки или тела робота, а лишь конечное устройство. Я фиксирую его положение и состояние — это так называемый UMI.

Сегодня мы также собираем данные с помощью очков, снимающих операцию глазами — это тоже безобъектный способ.

全天候科技:Данные с очков — это личная информация, никто не захочет делиться своими данными. Как вы решаете эту проблему?

唐文斌: Конечно, если я использую очки, я не хочу делиться своими данными. Но для обучения мы можем нанять сторонних сборщиков данных, которые в повседневной работе носили бы очки и записывали процессы.

Также мы планируем расширять функциональность очков — добавлять стереоскопическое зрение, мультизадачные возможности. В будущем появятся браслеты и перчатки для сбора данных.

Общий подход — разнообразие объектов:

  1. Роботы, управляемые дистанционно;
  2. Безобъектные устройства типа захватов «человек + конец руки робота»;
  3. Полностью человекоориентированные сборы;
  4. Описания физического мира.

全天候科技:Например, в конце устройства — это в основном силовые данные?

唐文斌: Не только сила, мы хотим мульти-модальные данные, включая визуальные.

Практически, чтобы избежать заслонения данных руками, мы можем установить камеры на глазах, на запястьях — по нескольку камер с разных ракурсов, чтобы получить многовидовые данные.

全天候科技:Это дорого?

唐文斌: Это сложный вопрос качества, количества и разнообразия данных. Если собирать все модули, стоимость резко возрастет. Поэтому мы используем распределенную стратегию: часть данных собираем максимально полно, а для других — чтобы снизить затраты и увеличить скорость, допускаем меньшую полноту.

Это баланс, у нас есть собственные инструменты и партнерства.

全天候科技:В феврале вы сотрудничали с 华勤技术 по созданию робота для сбора данных. Расскажите о нем.

唐文斌: Этот робот — в основном для научных целей, похож на ALOHA (Low-cost Open-source Hardware system for bimanual teleOperation). Есть и другие компании, делающие подобное.

На рынке есть две основные проблемы:

  • Надежность: текущие продукты часто ломаются, что мешает научной работе и снижает эффективность. Мы упростили ремонт, сделали модульную конструкцию, чтобы быстро менять поврежденные части — иногда за 30 секунд.
  • Стоимость: она все еще высокая. Поэтому мы совместно с 华勤 разработали аналог ALOHA, поддерживающий управление «хозяин-слуга» и перетаскивание, чтобы быстро ремонтировать и делать дешевле.

全天候科技:Другие компании используют этот робот для сбора данных?

唐文斌: Да, все понимают, что отраслевые боли схожи, и покупают наши или чужие роботы для совместного использования.

Модель мира и невозможность

全天候科技:Что вы думаете о моделях мира и VLA?

唐文斌: Тут важно различать понимание мира и его генерацию — это разные вещи.

Большие модели, о которых идет речь, в основном — о понимании мира. Модель мира — это попытка предсказать будущее, например, следующую сцену. VLA — это взаимодействие с миром.

Эти модели схожи, но решают разные задачи.

Лучший подход — их объединение. Тогда мы можем и понимать, и генерировать контент, и взаимодействовать с миром.

Если модель мира умеет предсказывать будущее, мы можем вывести, как действовать. А если умеем действовать — значит, можем предсказать развитие ситуации.

В нашей системе модель мира и VLA объединены: мы хотим, чтобы одна модель могла и понимать, и предсказывать.

Это значит, что модель не только управляет действиями, но и предсказывает, как изменится мир после них.

全天候科技:А у других компаний другие подходы?

唐文斌: Некоторые используют только модели мира, чтобы генерировать данные и обучать роботов — это бесконечный источник данных.

Но я считаю, что это путь невозможный: если модель мира уже реализована, зачем тогда генерировать дополнительные данные? Тогда возникает вопрос, зачем вообще генерация.

Правильный путь — предсказывать будущее и на основе этого выводить действия, то есть объединять оба подхода в единую модель.

全天候科技:А в условиях высокой автоматизации фабрик — зачем роботы?

唐文斌: Текущие фабрики уже очень автоматизированы. Но мы хотим решать те задачи, которые раньше были слишком дорогими или невозможными.

Многие автоматизированные линии требуют высокой универсальности — например, при работе с разными товарами, условиями освещения и задачами.

Например, логистика: роботы уже умеют переносить грузы, но не умеют хорошо управлять руками, что важно при упаковке товаров, например, бутылок с шампунем или чипсов. Разнообразие товаров и условий делает автоматизацию сложной.

Также, например, упаковка: при упаковке бутылок с гелем для душа, оператор обматывает горлышко пленкой, чтобы не пролилось. Сейчас это делается вручную, по опыту, с помощью пленки и маркировки. Автоматизация пока не решает такие задачи.

Мы экспериментируем в логистике и промышленности.

全天候科技:Вы предпочитаете развивать в рамках одного сценария или одновременно в нескольких?

唐文斌: Тут важно понять тренд: развитие больших моделей показывает, что узкоспециализированные модели не дают нужной универсальности. Поэтому — стремимся к универсальности.

Но в практике — реализуем поэтапно, сценарий за сценарием. Внутри у нас есть два принципа:

  1. Решение должно быть замкнутым — покрывать все вопросы и исключения клиента.
  2. Стоимость должна быть контролируемой — чтобы клиент считал сотрудничество выгодным.

Только при выполнении этих условий масштабировать применение возможно. Каждый проект — это понимание ценности клиента и достижение этих целей. Постепенно, год за годом.

Это — баланс между развитием модели и внедрением.

Обращая внимание на сценарии, нужно иметь уважение к их сложности

全天候科技:Вы за универсальных роботов?

唐文斌: Я считаю, что модели могут быть универсальными, а вот аппаратная часть — очень сложна.

Наши руки очень гибкие: одна — для точных операций, другая — для тяжелых грузов до 50 кг. Но из-за физических ограничений и материалов, механическая рука, способная поднимать 2 кг, — совсем не та же, что и для 20 кг.

Если делать универсальный дизайн, то он либо недодуман, либо избыточен. Недодуман — не сможет справиться с весом или ограничениями по сенсорам. Избыточен — дорого стоит.

Например, колесные двуручные роботы с высоким центром тяжести — быстрее, но сложнее останавливать. Иногда лучше просто оставить их неподвижными и использовать транспортные средства для доставки.

Поэтому важно, чтобы модель могла адаптироваться к разным аппаратным платформам.

全天候科技:Инвесторы ценят вас за модель или за аппаратную часть?

唐文斌: За модель. Мы — команда, которая не только занимается робототехникой, но и глубоко понимает модели. В旷视我们 накопили богатый опыт в логистике, есть масштаб, есть понимание продукта, есть команда специалистов по оптимизации моделей.

全天候科技:Многие компании внутри отрасли хорошо знают свои сценарии, а вы — изначально модельщики. Не кажется, что вы слабее в понимании конкретных задач?

唐文斌: Мы много работали в旷视 с разными сценариями, так что считаю, что мы — люди, прошедшие обучение.

Это — вопрос менталитета. В робототехнике есть две группы: одна — технарии, другая — специалисты по сценариям. Мы — посрединные.

Технарии часто делают предположения о сценариях, думая, что все так и есть. Но в реальности детали важнее. Например, при возникновении проблем, нельзя останавливать производство — нужны четкие процедуры по исключениям.

Поэтому, чтобы работать с сценарием, нужно его уважать.

Но и отрасль полна проблем: многие считают, что технологии — универсальны. Когда сталкиваются с AI, ждут, что он решит всё. Но когда понимают, что есть ограничения — разочаровываются и возвращаются к правилам.

Сегодня развитие моделей — это не чудо и не полное бездействие, а быстрый рост в промежуточной стадии.

Нам нужны люди, которые понимают сценарии и алгоритмы, и могут быстро запускать проекты.

Все наши работы — это попытка удовлетворить потребности. У нас есть свои ограничения.

Я за широкое обучение и многосторонний взгляд, но важно иметь собственные критерии выбора сценариев, которые смогут жить долго.

全天候科技:Кого вы считаете целевой аудиторией — роботостроителей или сценарийных решений?

唐文斌 : В основном — сценарийных решений.

Честно говоря, внутри страны и за границей, модели еще не достаточно зрелые. Пока не достигнута возможность быстро внедрять модели в оборудование роботов после простого обучения.

Я считаю, что для внедрения в сценарии нужно вертикальное интегрирование.

Если мы сами не можем реализовать сценарий, надеяться, что партнеры сделают — иллюзия. В будущем, возможно, мы создадим свои сценарии, а многие другие — через открытые платформы, совместно с партнерами. Они смогут использовать наше оборудование или просто наши идеи, чтобы исследовать новые возможности.

全天候科技:Вы открываете модели, чтобы привлечь больше участников?

唐文斌: Открытие — это два аспекта. Во-первых, мы хотим, чтобы больше людей использовали наши фреймворки и модели, чтобы совместно развивать сценарии и технологии. Во-вторых, несмотря на высокий интерес, модели еще на начальной стадии, и обмен опытом важен для прогресса.

全天候科技:Вы говорили, что к 2026 году планируете развернуть по 1000 устройств на каждый сценарий. Как идет прогресс?

唐文斌: Пока — еще в стадии тестирования. Но мы уверены в потенциале массового внедрения.

Чтобы роботы работали постоянно, нужно найти механизмы отказоустойчивости. Пока модели не достигают 100% точности.

Что делать при сбое? Нужно продумать, как перехватывать задачи и восстанавливать их. Также важно оценить влияние сбоев на бизнес и их допустимость.

После внедрения резервных решений, нужно оценить ROI системы.

全天候科技:Клиенты спрашивают, сколько вы можете сэкономить на производстве?

唐文斌: Обычно спрашивают, за сколько времени окупится проект.

Если окупаемость — более 5 лет, то проект не имеет смысла.

Если — 2-3 года, то сразу начинаем.

В текущей B2B-среде решения основаны на расчетах эффективности: насколько робот увеличит время работы, лучше ли использует оборудование, какую выгоду принесет.

全天候科技 :Можете ли вы раскрыть планы по обновлению моделей?

唐文斌: В этом году основной фокус — на универсальности.

全天候科技:Вы начали заниматься моделями телесного интеллекта недавно — не поздно ли?

唐文斌: Мы давно хотели создать универсального робота, но считали, что технологии еще не готовы. Сейчас, с развитием больших моделей вроде DeepSeek, у нас появилась уверенность.

全天候科技:Если бы вы могли дать один ключевой термин для 2026 года в сфере телесного интеллекта, что бы это было?

唐文斌: Два слова: рост возможностей моделей и стабильность сценариев.

Модели еще на ранней стадии, но развиваются очень быстро. Нужно совершенствовать алгоритмы, повышать адаптивность к объектам, среде и задачам. Универсальность — ключ.

Что касается сценариев, важно не только прототипировать, но и обеспечить их постоянную работу. Это — следующий этап, и уже пора.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить