Розмова з Тан Вень-біня, засновником Pure "World Model": чистий маршрут "світової моделі" не спрацює

Зовсім скоро розпочнеться прихована «цифрова боротьба» за тілесний штучний інтелект.

У січні цього року Інноваційний центр гуманoidних роботів у Хубеї передав компанії 智元 робототехнічні дані на тисячі годин тренувань, що стало першою в країні угодою про кастомізовану торгівлю даними для гуманoidних роботів.

Щодо галузевих гігантів, нещодавно JD.com оголосив про намір створити найбільший у світі центр збору даних для тілесного штучного інтелекту з максимально повним охопленням сценаріїв, залучивши понад 100 000 внутрішніх співробітників і до 500 000 зовнішніх учасників, розпочавши безпрецедентну «людську тактику».

Зовнішній погляд — на Південь, у Південній Кореї компанія Robotis у січні цього року відкрила дочірню компанію в Узбекистані, плануючи побудувати на 11 тисячах квадратних метрів величезний «даний завод» для збору поведінкових даних роботів.

Оплата за годинами, кастомізовані угоди, мобілізація сотень тисяч людей, будівництво заводів у Центральній Азії — ці заходи відображають глибоку «дану тривогу» у всій галузі тілесного штучного інтелекту.

На відміну від великих мовних моделей, що розвивалися у інтернет-корпусі, тілесний штучний інтелект потребує розуміння світу та взаємодії з реальним світом, що ставить високі вимоги до достовірності даних, модальностей тощо.

Це одна з головних проблем, яку зараз намагається вирішити засновник і CEO компанії 原力灵机 唐文斌.

Заглядаючи назад у кар’єру, більш відомий як співзасновник і CTO компанії旷视科技, яка стала зірковим єдинорогом під час попередньої хвилі AI.

Компанія 原力灵机, яка існує лише рік, вже зібрала понад 1 мільярд юанів інвестицій, залучивши провідні інституції, такі як Alibaba, NIO, 君联, 启明.

Зараз компанія випустила перший власний великий модельний базовий модель DM0 та уклала стратегічну співпрацю з 华勤技术 для масового виробництва збиральних роботів DOS‑W1.

Після досвіду впровадження AI у реальні проєкти, 唐文斌 став більш усвідомленим і шанобливим до галузі.

У недавньому діалозі з Wall Street Journal та全天候科技 він поділився своїм баченням збору даних: не залежати від одного джерела, а застосовувати «якість✖ кількість✖ різноманітність» у розподіленому зборі, щоб заповнити можливості роботів.

Щодо маршруту генерації даних через світову модель, щоб робот міг імітувати навчання, 唐文斌 вважає цей шлях малоймовірним. Він пропонує більш реалістичну парадигму — об’єднати світову модель із моделлю VLA (зір-язик-дія), яка не лише прогнозує майбутнє світу, а й здатна вивести точні дії на основі цього.

Коли гравці галузі активно «збирають» дані, щоб «зберегти» їх, ринок очікує, яка стратегія виявиться найуспішнішою.

Нижче наведено запис розмови.

Детальніше про збір даних

全天候科技:Чи можете поділитися вашою стратегією збору даних?

唐文斌: Зараз ми переважно імітуємо підсилене навчання.

Імітація включає моделювання розподілу даних. Наша мета — максимально заповнити можливості роботів, щоб вони бачили якомога більше. Головне — здатність обробляти невідомі сценарії, і цінність даних у цьому. Тому наш збір даних орієнтований на відкриті середовища та реальні сценарії.

Ми прагнемо зберігати високий рівень якості даних і водночас максимально заповнювати цю «простір», тому вважаю, що збір даних — це комбінація «якість✖ кількість✖ різноманітність».

全天候科技:Як саме ви збираєте дані?

唐文斌: Насправді ми не залежимо від одного джерела даних, це недоцільно. Використовуємо комбінацію. З реальних пристроїв — через калібровані сенсори, наприклад, екзоскелети, але це дорого.

Також збираємо дані з безтілесних пристроїв і з перших осіб, формуючи більший набір даних — це проміжний варіант між реальними пристроями і синтетичними даними.

Крім того, використовуємо дешеві дані з інтернету.

全天候科技:Що таке збір даних без тіло?

唐文斌: Безтілесний збір означає, що це може бути рукавиця або ручний захват, без механічної руки або тіла робота, тобто використовується лише кінцева частина. Я фіксую її положення і стан, і цей спосіб називається UMI.

Сьогодні багато даних отримуємо з перших осіб, наприклад, через окуляри, що знімають процес роботи — це ще один безтілесний спосіб.

全天候科技:Дані з очок мають конфіденційність, ніхто не захоче відкривати свої дані для збору. Як ви вирішуєте цю проблему?

唐文斌: Так, якщо я користувач окулярів, я не хочу ділитися своїми даними. Але для тренування ми можемо залучити сторонніх збирачів, які під час роботи носитимуть окуляри і записуватимуть процес.

Ми також прагнемо зробити функціонал окулярів більш потужним — з тривимірним зором і багатофункціональністю. У майбутньому плануємо додати браслети і рукавички для збору даних.

Загалом, наші об’єкти збору різноманітні: перша — робот, який може дистанційно керуватися; друга — безтілесні пристрої, наприклад, захват «людина + кінцева частина робота»; третя — цілком людські дані; четверта — опис фізичного світу.

全天огод科技:Наприклад, у кінцевих сенсорах — це переважно дані про силу?

唐文斌 : Не лише сила, ми прагнемо мультимодальних даних, наприклад, з додаванням зору.

Практично, через можливі перешкоди під час руху рукою, ми можемо встановити камеру на очах, а на зап’ястях — по дві камери, щоб отримати багатокутовий зір.

全天候科技:Такий збір коштує дорого?

唐文斌: Це складне питання — якість, кількість і різноманітність даних. Якщо збирати всі модулі, вартість зросте дуже сильно. Тому ми застосовуємо розподілений підхід: деякі дані збираємо максимально повно, а для інших — зменшуємо витрати, щоб швидше і дешевше.

Це — баланс. У нас є власні інструменти збору і тісна співпраця з іншими галузями.

全天候科技:У лютому ви з 华勤技术 запустили робота для збору даних. Розкажіть про нього.

唐文斌: Це — переважно для наукових цілей, схожий на ALOHA — систему для двоманіпуляторного дистанційного керування (прим. — ALOHA — «A Low-cost Open-source Hardware system for bimanual teleOperation»).

На ринку є проблеми: перша — надійність. Часті збої знижують ефективність і ускладнюють дослідження. Ми працюємо над спрощенням ремонту, зробили модульну конструкцію, щоб швидко замінювати пошкоджені частини — наприклад, за 30 секунд.

Друга — висока ціна. Тому ми співпрацювали з 华勤 і створили дешевий, швидкий у ремонті аналог ALOHA, з підтримкою головного і підлеглого рукава, з низькою затримкою і високою точністю.

全天候科技:Інші компанії купували цього робота для збору даних?

唐文斌 : Так, галузь стикається з подібними проблемами, тому всі купують подібних роботів для сумісної роботи.

Світова модель ідея — не працює

全天候科技:Що ви думаєте про світову модель і VLA?

唐文斌: Тут потрібно розрізняти два моменти: розуміння світу і його генерація — різні речі.

Глобальні моделі, які ми обговорюємо, здатні розуміти світ. Світова модель — це прогнозування майбутнього, передбачення наступного кадру, а VLA — це взаємодія з світом.

Ці моделі мають спільне, але вирішують різні задачі.

Ми вважаємо, що найкраща стратегія — поєднання. Тільки так можна і розуміти, і генерувати контент, і взаємодіяти з світом.

Теоретично, якщо ми можемо прогнозувати майбутнє, то можемо зворотно визначити, як діяти. А якщо знаємо, що потрібно зробити, — можемо прогнозувати майбутнє.

У нашій технічній архітектурі світова модель і VLA об’єднані — ми прагнемо, щоб один модельний блок міг і розуміти світ, і прогнозувати його.

Тоді модель не лише виконує дії, а й передбачає, як зміниться світ після них.

全天候科技 :Чи відрізняється технічна структура галузі від вашої?

唐文斌: Так, деякі компанії пропагують лише світову модель. Є думка, що генерація даних через світову модель дозволяє роботам навчатися імітацією, створюючи безліч даних.

Але я вважаю, що цей шлях малоймовірний. Якщо світова модель вже реалізована, то генерація даних — вже вирішена проблема, і додаткове генерування не потрібно.

Інший шлях — прогнозувати майбутній світ і на основі цього визначати дії. Це — поєднання двох підходів у єдину модельну архітектуру.

全天候科技:Що з приводу сценаріїв? Оскільки виробничі лінії автоматизовані, чи не з’явиться роботам «нечого робити»?

唐文斌: Автоматизація у виробництві вже досить розвинена. Але ми прагнемо вирішити проблеми, які раніше були недосяжні або дуже дорогі.

Зазвичай автоматизовані лінії мають обмежену гнучкість — вони працюють з кількома SKU, зовнішні умови стабільні.

Проблеми — це різноманітність об’єктів і змінне середовище, а також різні задачі.

Наприклад, у логістиці — основна робота — перенесення вантажів, але з операціями складніше. Наприклад, покупець купує кока-колу і чіпси, і оператор має їх пакувати окремо. Через різноманітність товарів і змінні умови автоматизація важка.

Ще приклад — пакування: наприклад, пляшки з гель-шампунем. Вони мають пластикову плівку, щоб запобігти витіканню. Зараз оператори вручну обмотують їх плівкою і пакують у пінопластові мішки, ставлять етикетки — автоматизація тут поки що складна.

Ми експериментуємо у логістиці та промисловості.

全天候科技:Ви орієнтуєтеся на вузьку спеціалізацію або на масштабне розгортання у різних сценаріях?

唐文斌: Це залежить. Спостерігаючи за розвитком великих моделей, помітно, що створення вузькоспеціалізованих моделей не дає справжньої гнучкості. Це — шлях у глухий кут.

Тому, з точки зору моделі, ми прагнемо до універсальності, до більш загальних технологій.

Але з точки зору застосування — потрібно реалізовувати по одному сценарию за раз.

У нашій компанії акцент — щоб рішення були закритими системами, що вирішують всі проблеми клієнта і враховують всі виключні ситуації, а також були економічно вигідними.

Лише за таких умов клієнти готові масштабувати застосування.

Кожен сценарій — це розуміння цінності клієнта і досягнення цих двох цілей. Це — процес поступового розгортання.

Ми описуємо цей процес як співвідношення між розвитком моделі і її застосуванням — вони утворюють кут 45 градусів, тобто пов’язані, але не ідентичні.

Звісно, наша модель має рухатися у напрямку універсальності.

Повага до сценаріїв

全天候科技 :Тобто ви підтримуєте шлях створення універсального робота?

唐文斌: Я вважаю, що модель може бути універсальною, але апаратна частина — ні.

Наші дві руки дуже гнучкі: одна — для точних операцій, інша — для піднімання важких предметів до 50 кг.

Але через фізику і матеріали механічні руки з різною потужністю — для легких і важких об’єктів — різні.

Тому, якщо використовувати один дизайн для всіх сценаріїв, це або недопрацьовано, або надмірно зроблено.

Наприклад, колесовий дворука — при високому центрі тяжкості швидко їде, але важко зупинитися, і може впасти.

Іноді краще залишатися статичним і підвозити предмети до місця.

Тому можливе «перебільшене» проектування.

Наш підхід — зробити модель універсальною і здатною адаптуватися до різних платформ.

全天候科技 :Тепер інвестори цінують вашу здатність — модель?

唐文斌: Так, наша команда унікальна тим, що не лише розробляє робототехнічні сценарії, а й глибоко розуміє моделі. Ми маємо досвід у логістиці旷视, і маємо команду фахівців з оптимізації моделей.

全天候科技:Багато компаній у своїй галузі добре розуміють потреби саме своєї сфери, а ви — з моделями, чи не здається, що ви слабкі у розумінні сценаріїв?

唐文斌: Насправді, ще у旷视 ми працювали з багатьма сценаріями, тому вважаю, що ми — люди, які пройшли відповідне навчання.

Це — питання менталітету. У робототехніці є дві групи: одна — технарі, інша — сценаристи. Ми — посередині.

Ті, хто займається лише технікою, часто роблять припущення, що сценарії — це просто. Але у реальності — деталі ховають підступи. Наприклад, при проблемах виробничий процес не можна зупиняти, тому потрібні надійні системи обробки несправностей.

Тому технарі мають поважати сценарії.

Але і галузеві фахівці мають свої проблеми. У минулому багато колег вважали, що техніка — всеосяжна, і коли з’явився AI, очікували, що він вирішить усі питання. Коли ж з’ясувалося, що деякі проблеми — не вирішуються, вони розчаровувалися і поверталися до правил.

Зараз розвиток моделей — це не магія і не безмежна можливість, а швидкий прогрес у середньому. Потрібні люди, що розуміють сценарії і алгоритми, і здатні швидко запускати проєкти.

Ми — у процесі задоволення потреб. У нас є обмеження у погляді, тому потрібно вчитися і дивитися з різних боків, але мати власні критерії для вибору життєздатних сценаріїв.

全天候科技 :Як ви визначаєте цільову аудиторію — робототехнічні компанії чи застосовувачі сценаріїв?

唐文斌 : Переважно — застосовувачі сценаріїв.

Чесно кажучи, і в Китаї, і за кордоном, більшість моделей ще не досить зрілі. Тому зараз не можна просто взяти модель і швидко запустити на обладнанні робототехнічної компанії.

Я вважаю, що, поки модель не доросла, потрібно вертикально інтегруватися у сценарії. Якщо ми самі не можемо зробити сценарій, то навряд чи зможемо його зробити разом із партнерами.

Можливо, колись ми створимо власні сценарії, а багато інших — через відкриту платформу, співпрацюючи з партнерами. Вони зможуть використовувати наше обладнання або просто наш «мозок» для досліджень.

全天候科技:Тобто ви відкриваєте модель, щоб залучити більше учасників?

唐文斌: Відкриття — це дві мети. По-перше, щоб більше людей використовували наші фреймворки і моделі, щоб разом досліджувати застосування і просувати технології. По-друге, хоча галузь ще молода, важливо сприяти обміну досвідом і розвитку.

全天候科技:Щодо цілей на 2026 рік — розгортання 1000 пристроїв у кожному сценарії — як просувається?

唐文斌: Це — довгострокова ціль, можливо, до другої половини року. Зараз ми тестуємо концепцію.

Ми впевнені у потенціалі масового виробництва у власних сценаріях.

Щоб робот міг працювати стабільно, потрібно врахувати відмовостійкість. На жаль, сучасні моделі ще не дають 100% точності.

Що робити у разі збою? Це — важливе питання. Потрібно розробити механізм відновлення, щоб у разі збою його можна було повернути до роботи. Також потрібно оцінити вплив збою на бізнес і чи його можна допустити.

Після впровадження резервних механізмів потрібно визначити ROI системи.

全天候科技:Якщо говорити про ROI, чи запитують клієнти, скільки вони зможуть заощадити?

唐文斌: Зазвичай клієнти питають, коли окупиться проєкт.

Якщо окупність — понад п’ять років, тоді проєкт не має сенсу.

Якщо — 2-3 роки, то можна починати негайно. У B2B-режимі рішення базуються на раціональності: скільки ефективності вони принесуть. Наприклад, робот може подовжити час роботи виробничих ліній і краще використовувати обладнання, що дає цінність клієнту.

全天候科技 :Можете розповісти про майбутні оновлення моделей?

唐文斌: У цьому році головна тема — універсальність.

全天候科技:Ви почали цю роботу лише минулого року, чи не зарано?

唐文斌: Ми давно хотіли створити універсального робота, але вважали, що технології ще не готові. З розвитком великих моделей, таких як DeepSeek, у нас з’явилася більша впевненість.

全天候科技:Якщо б ви мали назвати один ключовий слово для індустрії тілесного штучного інтелекту 2026 року, що б це було?

唐文斌: Два слова: перше — підвищення можливостей моделей, друге — безперервна робота сценаріїв.

Моделі ще на ранніх стадіях, але швидко розвиваються. Тому потрібно покращувати алгоритми, адаптивність до об’єктів, середовища і задач. Гнучкість — ключова.

Щодо сценаріїв, важливо не лише прототипування, а й стабільна робота у реальних умовах. Це — наш пріоритет. Наступного року вже час.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити