Діалог, незалежний змінний CTO Ван Хао: Чому «Святий Грааль» тілесного інтелекту — це сім’я?

Автор Дейл

Редактор Тун Юйцін

«Сім’я справді є Святим Граалем для тілесного інтелекту». 30 березня 2026 року зранку, у Шеньчжені, Інститут Лінг-1, співзасновник і CTO Zіаваріабл-роботів Ван Хао під час інтерв’ю, зокрема для Phoenix Tech, озвучив цю оцінку. У той час проходила Перша конференція розробників тілесного інтелекту (EAIDC 2026): 20 найкращих команд, що вийшли до фіналу, зібралися тут, а учасникам було лише три дні, щоб пройти весь шлях — від нуля до збору даних, тренування моделі та розгортання на реальному роботі.

У 2026 році, коли майже всі колеги перш за все прагнуть отримати замовлення в промислових сценаріях, Zіаваріабл обрала більш ризикований шлях. Цього березня Zіаваріабл оголосила про співпрацю з 58 同城: платформа 58 到家 випадковим чином розподіляє тьотьок і роботів у пари, щоб разом надавати послуги з домашнього обслуговування; пілот уже запущено в Шеньчжені. Сім’я — це сцена з найнижчим рівнем стандартизації та найвідкритішим середовищем — стає ключовим полем бою в уяві Zіаваріабл «шляху до універсальних роботів».

01 Гонка, яка повертає роботів у реальний світ

Система змагання EAIDC 2026 має чимало хитрощів: усі команди використовують одну й ту саму апаратну платформу, і за три дні вони мають завершити повний цикл — від збору даних до розгортання на реальному роботі — перебуваючи у стані першого знайомства з базовою моделлю тілесного інтелекту та налагодження справжньої техніки. Зазвичай для побудови подібного в спеціалізованих дослідницьких лабораторіях потрібно щонайменше 6 місяців.

У спостереженнях Ван Хао, вже в перший день по обіді з’явилася помітна різниця. «У перший день після відкриття змагання ввечері деякі учасники ще налаштовують середовище, а дехто вже має результат — це дуже велика різниця». Пізніше він з’ясував: команди, які часто проводять оцінювання, уважно аналізують дані та апаратне забезпечення, демонструють кращі результати, ніж ті, хто не береться за роботу на місці. «Увесь “тілесний” процес — це інтерактивне навчання: машина знаходить проблеми в тестах і під час спостереження людиною; що вища ймовірність знайти розв’язання складності справжнього фізичного світу».

Один із учасників згодом згадував, що під час найпершого зіткнення з завданням «надягнути кільце на стовп» їхня влучність становила лише 20–30%; після постійних ітерацій вона поступово зросла до 60–70%.

Змагання також передбачає таблиці A та B — в A-секції середовище контрольоване, щоб учасники могли швидко перевірити можливості моделі; B-секція є повністю «чорною скринькою», яка перевіряє здатність моделі до узагальнення при змінах освітлення, фону, об’єкта маніпуляції та позиції операції. Ван Хао каже, що їхній задум такий: «Через це змагання справді дати можливість усьому відкритому проєкту знизити поріг використання для розробників і вибудувати відносно універсальний та стандартний інтерфейс».

У індустрії тілесного інтелекту, яка тривало покладається на симуляційні оцінювання, симуляційне середовище може прискорити ітерації, однак воно погано відтворює складність реального світу, а розрив sim2real (підхід до перенесення технологій із симульованого середовища в реальний світ) завжди залишається. Ван Хао відверто визнає: «Тривала залежність від симуляційних оцінювань неминуче приховує реальні межі можливостей моделі». А ця «арена реальних демонстрацій» EAIDC намагається знову привести оцінювання, тренування та збір даних до того самого реального світу.

02 Енд-ту-енд «нова історія»?

Zіаваріабл від самого початку обрала шлях «єдиних великих моделей енд-ту-енд з великим і малим мозком». З точки зору технічної архітектури команда намагається об’єднати world model і VLA (візуально-мовно-дійову) модель у єдиному спільному фреймворку.

Ван Хао пояснив базову логіку цього підходу. «Підґрунтя тренування великої мовної моделі все одно потрібно використовувати, але ми хочемо перенести мову й дії в один простір, а не як раніше, коли вся візуальна інформація служила мові». Мовний опис містить дуже узагальнену інформацію, тоді як взаємодія з фізичним світом відбувається в сантиметрових і секундних масштабах — між цими речами існує величезний інформаційний розрив. «Якщо ми зможемо застосувати нативний мультимодальний підхід, дії матимуть дуже чіткі прояви і на макро-, і на мікрорівні; це зможе перетворити візію з попереднього статичного спостереження на розуміння руху».

Це контрастує з спрощеними конструкціями багатьох поточних VLA-моделей. Спостерігачі в індустрії зазначають, що багато тілесних моделей досі тяжіють до спрощень, а більшість VLA-моделей усе ще покладаються на вхід у вигляді одного кадру зображення.

Ван Хао вважає, що найбільшим викликом для енд-ту-енд моделей є складність тренування та вимоги до масштабу. «Якщо у вас немає цих двох умов, то вибір енд-ту-енд не обов’язково дасть кращий ефект, ніж вибір вузькоспеціалізованих або ієрархічних моделей. Енд-ту-енд означає, що має бути ефект масштабу: потрібно нарощувати обсяг даних і кількість параметрів моделі». Крім того, оцінювання в тілесному інтелекті ще більш «проблемне», ніж у мовних великих моделях: «Мовну велику модель можна оцінити за loss-кривою; для тілесного інтелекту зазвичай так не буває: loss не відображає вашу поведінку в реальному світі, бо реальний світ — це замкнена система».

Ще одна ключова стратегія Zіаваріабл — наполягати на зборі true/real world даних із реальних роботів. Ван Хао каже: «Усі інтерактивні навчання та навчання з підкріпленням — найважливіші дані надходять із реальних роботів. Цей збір даних не зупинятиметься — ми й надалі його робитимемо». Але він також розкрив, що в 2026 році буде великий зсув — «все більше залежатимуть від збору даних через носимі людиною або Ego-Centric способи».

Побудова data closed loop (замкнутого циклу даних) — ще одне ключове твердження Zіаваріабл. Ван Хао каже: «Якнайшвидше запускати замкнений цикл у режимі співпраці людина–машина. Спочатку за допомогою якісних даних і великомасштабного тренування створити базову модель; навіть якщо вона не розв’яже всі задачі, її потрібно помістити в реальні умови й почати працювати там. Якщо в неї щось не виходить, людина підхоплює; вона допомагає моделі відновлюватися після помилок. Дані такого типу також стають надзвичайно цінним джерелом». Він описує систему, де оцінювання, тренування та збір даних виконуються в одному процесі.

03 Чому саме сім’я?

Фактично, в індустрії поширена думка, що для зрілої комерційної дійової реалізації в сценарії сімей потрібні 5–10 років, а більшість компаній у комерціалізації більш схильні до промислових сценаріїв — середовище контрольоване, завдання по суті одиничні, ROI можна порахувати. На початку 2026 року з’явилася низка компаній-роботів із оцінкою в десятки мільярдів; однак у напрямі домашніх сервісів наразі немає справді зрілих гравців.

Ван Хао запропонував іншу логіку розв’язання: «Сім’я означає найвідкритіше середовище та найширший спектр задач. Якщо ви вирішуєте сімейні задачі, це означає, що модель здатна до повного узагальнення. Лише якщо з самого початку дивитися в обличчя найскладнішому середовищу, можна підвищити рівень інтелекту моделі. Не важливо, з чого починати — чим раніше, тим краще. Це найважливіше».

Втім, під час виходу в сімейні сценарії є кілька ключових складнощів. Перше — здатність до zero-shot узагальнення: модель має досягати успіху шляхом міркувань та пошуку правильного шляху, а не покладаючись на заздалегідь натреновані результати. «На старті в сім’ї не так багато можливостей тренувати модель; тоді потрібно активувати здібності моделі до міркувань, щоб вона в сімейному сценарії через міркування та дослідження знаходила приклади успіху». Друге — точність довготривалих операцій. «Зараз базова модель входить у сім’ю і в багатьох задачах уже є тенденція до виконання або формування наміру дії: наприклад, може простягнутись до будь-якого предмета й мати тенденцію схопити його, але точності недостатньо; через це в разі складних довгих задач помилки накопичуються й призводять до невдачі».

Ван Хао пояснив, що для вирішення проблеми довготривалої точності є два ключі. Перший — стимулювати здатність моделі до міркувань: «Нехай мова поєднується з візією для міркувань; мова, візія й дії формують ланцюг мислення на одному рівні, щоб робот сам планував і рефлексував». Другий — робити reinforcement learning у великомасштабних умовах із реальними роботами: «Зберігати просторову точність на вищому рівні відповідно до стандартів базової моделі».

Ван Хао прогнозує: «Для типових задач на прибирання та складання речей можна досягти повної автономності за 1–2 роки. Але щоб у всіх сімейних задачах реалізувати замкнений цикл, час може бути ще довшим».

Це перегукується зі словами CEO Zіаваріабл Ван Цяня. Ван Цянь у інтерв’ю згадував, що цього року можна буде побачити, як роботи виходять у комерціалізацію в спосіб із позитивним ROI. Проте темп просування в сімейних сценаріях, очевидно, повільніший, але й більш довгостроковий.

Повертаючись до актуальної для галузі тілесного інтелекту суперечливої теми, що найбільше важить — вибір технічного шляху чи комерціалізація?

«У справі тілесного інтелекту стеля досягнень, отриманих ціною техніки заради бізнесу, не буде високою; справді висока стеля — це синергія бізнесу й техніки, коли техніка поступово підштовхує розвиток бізнесу». Ван Хао вважає, що основна лінія Zіаваріабл — змусити базову модель безперервно ітерувати вперед. «Але є один момент: не робіть надто багато модельних систем у вузьких вертикальних сценаріях, не компенсуйте багато інженерних недоліків лише заради впровадження. Наприклад, якщо виявили, що у робота є “сліпа пляма” у візії — зробіть маленьку модель для детекції. У короткостроковій перспективі це може допомогти швидше впровадити рішення, але в довгостроковій — це шкодить покращенню базової моделі».

Ця наполегливість відповідає логіці Zіаваріабл при виборі сценаріїв: перша умова вибору — чи здатний сценарій віддзеркалити (підживити) можливості базової моделі. «Не так, що ви спершу доводите технологію до повної узагальненості, а потім думаєте про сценарії. Навпаки: сценарії дають вам ітерації; ітерації роблять базову модель сильнішою; а сильніша базова модель потім підсилює комерцію — і лише так формується цілісний замкнений цикл».

Він розкрив, що інвестиції в базову модель постійно були дуже високими: від першого дня створення компанія масштабно вкладалася в дані, обчислювальні потужності та базову інфраструктуру. «Як тільки ви створюєте ефект масштабу: коли ви вкидаєте в 10 разів більше ресурсів і берете лідерство, ефект концентрації ресурсів стає дедалі очевиднішим; ви перевершуєте інших за швидкістю завдяки перевазі на порядки. Чим раніше починаєш — тим більше переваг. Чим пізніше починаєш — тим складніше зробити це».

(Редактор: Лю Цзін HZ010)

     【Відмова від відповідальності】Ця стаття відображає лише особисті погляди автора та не має відношення до компанії Хе Сюнь. Сайт Хе Сюнь зберігає нейтралітет щодо наведених у тексті тверджень і оцінок та не надає жодних прямих або непрямих гарантій щодо точності, надійності чи повноти будь-якого з уміщеного контенту. Будь ласка, читачі розглядають цю інформацію лише як довідкову та несуть повну відповідальність за всі рішення й дії. Електронна пошта: news_center@staff.hexun.com

Поскаржитися

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити