Диалог, независимый переменный CTO Ван Хао: Почему семейство — это «Священный Грааль» для телесного интеллекта?

Question

Автор ДейлРедактор Дун Юйцзин«Семья — действительно Святой Грааль воплощённого интеллекта». 30 марта 2026 года утром, в Шэньчжэньском нулевом колледже, сооснователь и CTO компании Zijing Robot (цзыцзыцзин) Хао Ван в ходе интервью, включая интервью для Phoenix Net Technology, высказал это суждение. В тот момент как раз проходила Первая конференция разработчиков воплощённого интеллекта (EAIDC 2026): здесь собрались 20 лучших команд, вышедших в финал, а у участников было всего три дня, чтобы с нуля пройти весь процесс — от сбора данных, обучения моделей до развёртывания на реальном роботе.В 2026 году, когда почти все коллеги в первую очередь стремились заполучить заказы в промышленных сценариях, Zijing выбрала более рискованный путь. В этом марте Zijing объявила о сотрудничестве с 58.com: платформа от 58 до家 случайным образом подбирает тётушек и роботов в пары, чтобы совместно выполнять услуги по домашнему обслуживанию, и уже запустила пилот в Шэньчжэне. Семья — самый «низко стандартизированный» и при этом самый открытый по среде сценарий — становится ключевым полем сражения в представлении Zijing, «путём к универсальным роботам».**01 Соревнование, возвращающее роботов в реальный мир**Формат EAIDC 2026 устроен довольно хитро. Все участвующие команды используют одну и ту же платформу с оборудованием: за три дня они должны завершить весь цикл — от сбора данных до развёртывания на реальном роботе — находясь в состоянии, включающем первоначальное знакомство с базовой моделью воплощённого интеллекта и отладку реального робота. Обычно для сборки и подобных задач профессиональной исследовательской лаборатории требуется как минимум 6 месяцев.По наблюдениям Хао Вана, уже в первую половину дня соревнований наблюдалась заметная дифференциация. «В первый день открыли лагерь днём, а к вечеру некоторые участники всё ещё настраивали среду, а некоторые уже показали результаты — это очень большая разница». Позже он выяснил, что команды, которые часто проводят оценки, внимательно наблюдают за данными и оборудованием, оказываются более заметными по сравнению с теми, кто не берётся за руки. «Весь воплощённый интеллект — это интерактивное обучение: машина в ходе тестирования и наблюдений человека за ней находит проблемы; чем больше вероятность найти решения сложности реального физического мира».Один из участников позже вспоминал: когда они впервые столкнулись с задачей «надеть кольцо на столб», их успешность составляла всего 20–30%, и только после многократных итераций она постепенно выросла до 60–70%.В соревновании также предусмотрены A-таблица и B-таблица. A-таблица — среда под контролем, позволяющая участникам быстро проверять способность моделей; B-таблица — полностью «чёрный ящик», проверяющий обобщение модели при изменениях освещения, фона, объекта операций и позиций операций. Хао Ван говорит, что это — исходный замысел: «Мы хотим с помощью этого соревнования действительно сделать так, чтобы весь открытый проект снижал порог использования для разработчиков, и создать относительно более универсальный и стандартный интерфейс».В отрасли воплощённого интеллекта, которая в долгосрочной перспективе опирается на симуляционные оценочные тесты, симуляционная среда может ускорять итерации, но плохо воспроизводит сложность реального мира; разрыв sim2real (подразумевается технический переход от симуляционной среды к реальному миру) сохраняется всегда. Хао Ван признаёт: «Длительная зависимость от симуляционных оценок неизбежно скрывает реальные границы возможностей модели». А EAIDC — эта «учебная площадка с реальными роботами» — пытается снова вернуть оценку, обучение и сбор данных в единый реальный мир.**02 Конец-до-конца «новая история»?**С самого начала Zijing выбрала маршрут «единая end-to-end модель с большим и малым мозгом». В технической архитектуре команда пытается объединить world model и VLA (визуально-языково-действующую модель) в едином интегрированном фреймворке.Хао Ван объяснил базовую логику этого маршрута. «Обучающая основа — это всё равно большая языковая модель: просто мы хотим поместить язык и действия в одно пространство, а не как раньше, когда все визуальные данные служили языку». Информация, описываемая языком, очень макроскопична, а взаимодействие в физическом мире происходит в сантиметровом и секундном масштабе; между ними существует огромный информационный разрыв. «Если мы сможем применять нативный мультимодальный подход, то действия будут демонстрироваться очень чётко и на макро-, и на микроуровне; это превратит визуальное восприятие из прежнего статичного наблюдения в понимание того, как движется».Это контрастирует с упрощёнными дизайнами многих текущих VLA-моделей. Один из наблюдателей отрасли отметил, что многие воплощённые модели всё ещё склонны к упрощению, и большинство VLA-моделей по-прежнему опираются на ввод одиночного кадра изображения.Хао Ван считает, что главная сложность end-to-end моделей — это требования к сложности обучения и масштабу. «Если у вас нет этих двух условий, то выбор end-to-end не обязательно даёт лучший эффект, чем выбор специализированной малой модели или многоуровневой модели. End-to-end означает необходимость эффекта масштаба: количество данных и число параметров модели должны вырасти». Кроме того, оценка в воплощённом интеллекте ещё более проблемна, чем в языковых больших моделях. «Языковая большая модель может показывать loss-кривую; но для воплощённого интеллекта часто бывает не так: loss не отражает вашу работу в реальном мире, потому что реальный мир — это замкнутая система».Ещё одна ключевая стратегия Zijing — придерживаться сбора данных на реальных роботах. Хао Ван говорит: «Все интерактивные процессы обучения и обучения с подкреплением: самые важные данные приходят с реальных роботов. Этот сбор данных не остановится — он будет продолжаться». Но он также раскрыл, что в 2026 году произойдут большие изменения: «всё больше будет зависеть от способа собирать данные с помощью носимых устройств человека или Ego-Centric подхода».Построение data-замкнутого цикла — ещё одно ключевое положение Zijing. Хао Ван сказал: «Как можно раньше включить режим совместной работы человека и машины, чтобы замкнутый цикл заработал. Сначала с помощью качественных данных и крупномасштабного обучения создайте базовую модель. Хотя она не сможет решить все задачи, её нужно разместить в реальной среде и начать делать работу там. Если в каких-то местах она делает плохо — человек перехватывает и помогает ей восстанавливаться после ошибок; такие данные тоже станут очень ценным источником». Он описывает систему, в которой оценка, обучение и сбор данных выполняются в одном и том же процессе.**03 Почему именно семья?**Фактически в отрасли обычно считают, что для зрелого применения сценария семьи потребуется ожидать 5–10 лет, и большинство производителей в коммерциализации скорее предпочитают промышленные сценарии: среда контролируемая, задачи одиночные, ROI можно точно посчитать. В начале 2026 года на рынке появились несколько компаний-роботов с оценкой в десятки миллиардов; однако в направлении домашнего обслуживания на данный момент ещё нет по-настоящему зрелых игроков.Хао Ван предложил иной подход к решению задачи: «Семья представляет самую открытую среду и самые широкие задачи. Если решить задачи семьи, это будет означать, что модель способна к полной обобщаемости. Только если с самого начала смотреть в лицо самому сложному сценарию, можно повысить уровень интеллектуальности модели. Неважно, с какого момента начинать — чем раньше начнёте, тем лучше; это самое важное».Однако при входе в сценарий семьи есть несколько ключевых сложностей. Во-первых, способность к нулевому обобщению: модель должна добиваться успеха, исследуя пути посредством рассуждений, а не полагаясь на заранее обученные данные. «Когда вы входите в семью сначала, у модели практически нет возможности обучиться; тогда нужно активировать её способность рассуждать, чтобы в сценарии семьи через рассуждения исследовать успешные примеры». Во-вторых, точность для операций на длинной дистанции. «Сейчас базовая модель входит в семью: по многим задачам есть тенденции или намерения действий — например, может тянуться к любому предмету, чтобы взять его. Но точности недостаточно, и из-за накопления ошибок при сложных задачах на длинной дистанции всё проваливается».Хао Ван объяснил, что для решения проблемы точности на длинной дистанции есть два ключевых момента. Первый — активировать способность модели рассуждать: «пусть язык соединяется с визуальным восприятием для рассуждений; язык, визуальное восприятие и действия формируют цепочку рассуждений на одном уровне, так чтобы робот сам планировал и пересматривал». Второй — проводить обучение с подкреплением при крупномасштабном использовании реальных роботов: «сохранять возможность достигать более высокого стандарта пространственной точности в рамках базовой модели».Хао Ван оценивает: «Обычная уборка и задачи по сортировке/аккуратному хранению можно довести до полной автономности за 1–2 года. Но чтобы замкнуть цикл на всех задачах в доме, времени, вероятно, понадобится чуть больше».Это перекликается с заявлениями CEO Zijing, Ван Цян. Ван Цян в интервью упоминал, что в течение этого года можно увидеть, как роботы переходят к коммерческому внедрению с положительным ROI. Прогресс сценария семьи, разумеется, идёт медленнее, но и более долгосрочно.Возвращаясь к спорной теме, которая сильнее всего волнует индустрию воплощённого интеллекта прямо сейчас: что важнее — выбор технологического маршрута или коммерциализация?«В вопросе воплощённого интеллекта потолок достижений, полученных ценой принесения технологии ради коммерции, не будет высоким. По-настоящему высокий потолок — это когда коммерция и технология работают вместе, когда технологию постепенно продвигают развитие коммерции». Хао Ван считает, что главная линия Zijing — заставить базовую модель постоянно итеративно развиваться: «Но есть одно: не делать слишком много модельных систем в вертикальных сценариях, не компенсировать потом многочисленными инженерными доработками ради внедрения. Например, если обнаружили, что у робота есть слепые зоны по зрению — сделать маленькую модель для обнаружения. В краткосрочной перспективе это может помочь ускорить внедрение, но в долгосрочной — это вредно для улучшения базовой модели».Такой подход соответствует логике выбора сценариев в Zijing: «Первое основание, по которому выбирают сценарий, — может ли он обратным образом поддерживать способность базовой модели. Не так, что сначала вы доводите технологию до полной обобщаемости, а потом думаете о сценариях. Напротив: сценарий задаёт вам итерации; итерации делают базовую модель сильнее, а более сильная базовая модель затем обратным образом подпитывает бизнес — и только так формируется полный замкнутый цикл».Он также сообщил, что вложения в базовые модели остаются очень высокими: компания с первого дня основания в массовых масштабах вкладывается в данные, вычислительные мощности и базовую инфраструктуру. «Как только вы создаёте эффект масштабирования, когда вы вкладываете в 10 раз больше ресурсов и получаете лидерство, эффект концентрации ресурсов будет становиться всё более очевидным; вы будете превосходить других по скорости за счёт преимущества на уровне порядка величин. Чем раньше начнёте, тем больше преимуществ. Чем позже — тем труднее сделать».     (Редактор: Лю Цзин HZ010)  		          【Дисклеймер】Эта статья отражает только личные взгляды автора и не связана с Хэ Сюнь. Портал Hexun сохраняет нейтралитет в отношении заявлений, мнений и оценок, изложенных в статье, и не даёт каких-либо явных или подразумеваемых гарантий относительно точности, надёжности или полноты содержащейся информации. Пожалуйста, читатели рассматривайте это только как справку и несите всю ответственность самостоятельно. Email: news_center@staff.hexun.com            Сообщить об нарушении

Диалог, независимый переменный CTO Ван Хао: Почему семейство — это «Священный Грааль» для телесного интеллекта?

Популярные темы

GateSquareAprilPostingChallenge

MarchNonfarmPayrollsIncoming

IsraelStrikesIranBTCPlunges

CryptoMarketSeesVolatility

OilPricesRise

Горячее на Gate Fun

狐狸币

狐狸币

iranht

"Iran has teeth".

FUN

FUN COIN

Token

词元

TMP

特没谱

Закрепить