Діалог, незалежний змінний CTO Ван Хао: Чому «Святий Грааль» тілесного інтелекту — це сім’я?

Question

Автор ДейлРедактор Тун Юйцін«Сім’я справді є Святим Граалем для тілесного інтелекту». 30 березня 2026 року зранку, у Шеньчжені, Інститут Лінг-1, співзасновник і CTO Zіаваріабл-роботів Ван Хао під час інтерв’ю, зокрема для Phoenix Tech, озвучив цю оцінку. У той час проходила Перша конференція розробників тілесного інтелекту (EAIDC 2026): 20 найкращих команд, що вийшли до фіналу, зібралися тут, а учасникам було лише три дні, щоб пройти весь шлях — від нуля до збору даних, тренування моделі та розгортання на реальному роботі.У 2026 році, коли майже всі колеги перш за все прагнуть отримати замовлення в промислових сценаріях, Zіаваріабл обрала більш ризикований шлях. Цього березня Zіаваріабл оголосила про співпрацю з 58 同城: платформа 58 到家 випадковим чином розподіляє тьотьок і роботів у пари, щоб разом надавати послуги з домашнього обслуговування; пілот уже запущено в Шеньчжені. Сім’я — це сцена з найнижчим рівнем стандартизації та найвідкритішим середовищем — стає ключовим полем бою в уяві Zіаваріабл «шляху до універсальних роботів».**01 Гонка, яка повертає роботів у реальний світ**Система змагання EAIDC 2026 має чимало хитрощів: усі команди використовують одну й ту саму апаратну платформу, і за три дні вони мають завершити повний цикл — від збору даних до розгортання на реальному роботі — перебуваючи у стані першого знайомства з базовою моделлю тілесного інтелекту та налагодження справжньої техніки. Зазвичай для побудови подібного в спеціалізованих дослідницьких лабораторіях потрібно щонайменше 6 місяців.У спостереженнях Ван Хао, вже в перший день по обіді з’явилася помітна різниця. «У перший день після відкриття змагання ввечері деякі учасники ще налаштовують середовище, а дехто вже має результат — це дуже велика різниця». Пізніше він з’ясував: команди, які часто проводять оцінювання, уважно аналізують дані та апаратне забезпечення, демонструють кращі результати, ніж ті, хто не береться за роботу на місці. «Увесь “тілесний” процес — це інтерактивне навчання: машина знаходить проблеми в тестах і під час спостереження людиною; що вища ймовірність знайти розв’язання складності справжнього фізичного світу».Один із учасників згодом згадував, що під час найпершого зіткнення з завданням «надягнути кільце на стовп» їхня влучність становила лише 20–30%; після постійних ітерацій вона поступово зросла до 60–70%.Змагання також передбачає таблиці A та B — в A-секції середовище контрольоване, щоб учасники могли швидко перевірити можливості моделі; B-секція є повністю «чорною скринькою», яка перевіряє здатність моделі до узагальнення при змінах освітлення, фону, об’єкта маніпуляції та позиції операції. Ван Хао каже, що їхній задум такий: «Через це змагання справді дати можливість усьому відкритому проєкту знизити поріг використання для розробників і вибудувати відносно універсальний та стандартний інтерфейс».У індустрії тілесного інтелекту, яка тривало покладається на симуляційні оцінювання, симуляційне середовище може прискорити ітерації, однак воно погано відтворює складність реального світу, а розрив sim2real (підхід до перенесення технологій із симульованого середовища в реальний світ) завжди залишається. Ван Хао відверто визнає: «Тривала залежність від симуляційних оцінювань неминуче приховує реальні межі можливостей моделі». А ця «арена реальних демонстрацій» EAIDC намагається знову привести оцінювання, тренування та збір даних до того самого реального світу.**02 Енд-ту-енд «нова історія»?**Zіаваріабл від самого початку обрала шлях «єдиних великих моделей енд-ту-енд з великим і малим мозком». З точки зору технічної архітектури команда намагається об’єднати world model і VLA (візуально-мовно-дійову) модель у єдиному спільному фреймворку.Ван Хао пояснив базову логіку цього підходу. «Підґрунтя тренування великої мовної моделі все одно потрібно використовувати, але ми хочемо перенести мову й дії в один простір, а не як раніше, коли вся візуальна інформація служила мові». Мовний опис містить дуже узагальнену інформацію, тоді як взаємодія з фізичним світом відбувається в сантиметрових і секундних масштабах — між цими речами існує величезний інформаційний розрив. «Якщо ми зможемо застосувати нативний мультимодальний підхід, дії матимуть дуже чіткі прояви і на макро-, і на мікрорівні; це зможе перетворити візію з попереднього статичного спостереження на розуміння руху».Це контрастує з спрощеними конструкціями багатьох поточних VLA-моделей. Спостерігачі в індустрії зазначають, що багато тілесних моделей досі тяжіють до спрощень, а більшість VLA-моделей усе ще покладаються на вхід у вигляді одного кадру зображення.Ван Хао вважає, що найбільшим викликом для енд-ту-енд моделей є складність тренування та вимоги до масштабу. «Якщо у вас немає цих двох умов, то вибір енд-ту-енд не обов’язково дасть кращий ефект, ніж вибір вузькоспеціалізованих або ієрархічних моделей. Енд-ту-енд означає, що має бути ефект масштабу: потрібно нарощувати обсяг даних і кількість параметрів моделі». Крім того, оцінювання в тілесному інтелекті ще більш «проблемне», ніж у мовних великих моделях: «Мовну велику модель можна оцінити за loss-кривою; для тілесного інтелекту зазвичай так не буває: loss не відображає вашу поведінку в реальному світі, бо реальний світ — це замкнена система».Ще одна ключова стратегія Zіаваріабл — наполягати на зборі true/real world даних із реальних роботів. Ван Хао каже: «Усі інтерактивні навчання та навчання з підкріпленням — найважливіші дані надходять із реальних роботів. Цей збір даних не зупинятиметься — ми й надалі його робитимемо». Але він також розкрив, що в 2026 році буде великий зсув — «все більше залежатимуть від збору даних через носимі людиною або Ego-Centric способи».Побудова data closed loop (замкнутого циклу даних) — ще одне ключове твердження Zіаваріабл. Ван Хао каже: «Якнайшвидше запускати замкнений цикл у режимі співпраці людина–машина. Спочатку за допомогою якісних даних і великомасштабного тренування створити базову модель; навіть якщо вона не розв’яже всі задачі, її потрібно помістити в реальні умови й почати працювати там. Якщо в неї щось не виходить, людина підхоплює; вона допомагає моделі відновлюватися після помилок. Дані такого типу також стають надзвичайно цінним джерелом». Він описує систему, де оцінювання, тренування та збір даних виконуються в одному процесі.**03 Чому саме сім’я?**Фактично, в індустрії поширена думка, що для зрілої комерційної дійової реалізації в сценарії сімей потрібні 5–10 років, а більшість компаній у комерціалізації більш схильні до промислових сценаріїв — середовище контрольоване, завдання по суті одиничні, ROI можна порахувати. На початку 2026 року з’явилася низка компаній-роботів із оцінкою в десятки мільярдів; однак у напрямі домашніх сервісів наразі немає справді зрілих гравців.Ван Хао запропонував іншу логіку розв’язання: «Сім’я означає найвідкритіше середовище та найширший спектр задач. Якщо ви вирішуєте сімейні задачі, це означає, що модель здатна до повного узагальнення. Лише якщо з самого початку дивитися в обличчя найскладнішому середовищу, можна підвищити рівень інтелекту моделі. Не важливо, з чого починати — чим раніше, тим краще. Це найважливіше».Втім, під час виходу в сімейні сценарії є кілька ключових складнощів. Перше — здатність до zero-shot узагальнення: модель має досягати успіху шляхом міркувань та пошуку правильного шляху, а не покладаючись на заздалегідь натреновані результати. «На старті в сім’ї не так багато можливостей тренувати модель; тоді потрібно активувати здібності моделі до міркувань, щоб вона в сімейному сценарії через міркування та дослідження знаходила приклади успіху». Друге — точність довготривалих операцій. «Зараз базова модель входить у сім’ю і в багатьох задачах уже є тенденція до виконання або формування наміру дії: наприклад, може простягнутись до будь-якого предмета й мати тенденцію схопити його, але точності недостатньо; через це в разі складних довгих задач помилки накопичуються й призводять до невдачі».Ван Хао пояснив, що для вирішення проблеми довготривалої точності є два ключі. Перший — стимулювати здатність моделі до міркувань: «Нехай мова поєднується з візією для міркувань; мова, візія й дії формують ланцюг мислення на одному рівні, щоб робот сам планував і рефлексував». Другий — робити reinforcement learning у великомасштабних умовах із реальними роботами: «Зберігати просторову точність на вищому рівні відповідно до стандартів базової моделі».Ван Хао прогнозує: «Для типових задач на прибирання та складання речей можна досягти повної автономності за 1–2 роки. Але щоб у всіх сімейних задачах реалізувати замкнений цикл, час може бути ще довшим».Це перегукується зі словами CEO Zіаваріабл Ван Цяня. Ван Цянь у інтерв’ю згадував, що цього року можна буде побачити, як роботи виходять у комерціалізацію в спосіб із позитивним ROI. Проте темп просування в сімейних сценаріях, очевидно, повільніший, але й більш довгостроковий.Повертаючись до актуальної для галузі тілесного інтелекту суперечливої теми, що найбільше важить — вибір технічного шляху чи комерціалізація?«У справі тілесного інтелекту стеля досягнень, отриманих ціною техніки заради бізнесу, не буде високою; справді висока стеля — це синергія бізнесу й техніки, коли техніка поступово підштовхує розвиток бізнесу». Ван Хао вважає, що основна лінія Zіаваріабл — змусити базову модель безперервно ітерувати вперед. «Але є один момент: не робіть надто багато модельних систем у вузьких вертикальних сценаріях, не компенсуйте багато інженерних недоліків лише заради впровадження. Наприклад, якщо виявили, що у робота є “сліпа пляма” у візії — зробіть маленьку модель для детекції. У короткостроковій перспективі це може допомогти швидше впровадити рішення, але в довгостроковій — це шкодить покращенню базової моделі».Ця наполегливість відповідає логіці Zіаваріабл при виборі сценаріїв: перша умова вибору — чи здатний сценарій віддзеркалити (підживити) можливості базової моделі. «Не так, що ви спершу доводите технологію до повної узагальненості, а потім думаєте про сценарії. Навпаки: сценарії дають вам ітерації; ітерації роблять базову модель сильнішою; а сильніша базова модель потім підсилює комерцію — і лише так формується цілісний замкнений цикл».Він розкрив, що інвестиції в базову модель постійно були дуже високими: від першого дня створення компанія масштабно вкладалася в дані, обчислювальні потужності та базову інфраструктуру. «Як тільки ви створюєте ефект масштабу: коли ви вкидаєте в 10 разів більше ресурсів і берете лідерство, ефект концентрації ресурсів стає дедалі очевиднішим; ви перевершуєте інших за швидкістю завдяки перевазі на порядки. Чим раніше починаєш — тим більше переваг. Чим пізніше починаєш — тим складніше зробити це».     (Редактор: Лю Цзін HZ010)  		          【Відмова від відповідальності】Ця стаття відображає лише особисті погляди автора та не має відношення до компанії Хе Сюнь. Сайт Хе Сюнь зберігає нейтралітет щодо наведених у тексті тверджень і оцінок та не надає жодних прямих або непрямих гарантій щодо точності, надійності чи повноти будь-якого з уміщеного контенту. Будь ласка, читачі розглядають цю інформацію лише як довідкову та несуть повну відповідальність за всі рішення й дії. Електронна пошта: news_center@staff.hexun.com            Поскаржитися

Діалог, незалежний змінний CTO Ван Хао: Чому «Святий Грааль» тілесного інтелекту — це сім’я?

Популярні теми

GateSquareAprilPostingChallenge

MarchNonfarmPayrollsIncoming

IsraelStrikesIranBTCPlunges

CryptoMarketSeesVolatility

OilPricesRise

Популярні активності Gate Fun

狐狸币

狐狸币

iranht

"Iran has teeth".

FUN

FUN COIN

Token

词元

TMP

特没谱

Закріпити