Мировая модель финансирования в разгаре: капитал делает ставку на триллионный уровень физического AI-сегмента

Сотрудник газеты «Сэкйхабо» Чэнь Юйкан

Набирающий популярность в этом году «лобстер» (OpenClaw) демонстрирует всесилие искусственного интеллекта (AI): он может захватывать данные, писать код, генерировать большие видеопроизведения, брать под контроль компьютеры. Однако как только он выходит за пределы экрана, робот в реальном мире выглядит как несмышлёный ребёнок — он способен выполнять лишь фиксированные, процедурные действия, а «парадокс Мора–вика» проходит барьером на пути людей к универсальному искусственному интеллекту (AGI).

Модель мира — это ключ к решению этой дилеммы: она позволяет роботу по-настоящему понимать законы физического мира, иметь способности к мышлению и рассуждению, а значит — быть ключевым маршрутом к достижению AGI. В этом году нобелевский лауреат премии Тьюринга Ян Ликунь основал компанию по моделям мира; компания по моделям мира «AI-мамы» Ли Фэйфэй получила крупные раунды финансирования, в стране появилось более 20 случаев финансирования, связанных с моделями мира; в отрасли прямо говорят, что модели мира — это важный «передовой ветерок» следующего десятилетия для AI.

Несколько предпринимателей в сфере AI, пообщавшись с репортёром газеты «Сэкйхабо», заявили, что модели мира позволяют AI реально добиться понимания и взаимодействия с физическим миром — это необходимый путь к AGI. Сейчас развитие моделей мира всё ещё находится на ранней стадии: кто сможет первым провернуть «маховик» данных физического взаимодействия, тот и получит преимущество в развитии.

AI нужно укорениться в реальном мире

OpenAI недавно объявила о закрытии приложения для генерации видео Sora и о корректировке стратегического направления: далее команда Sora будет сосредоточена на исследованиях моделей мира.

Отказаться от генерации реальности и вместо этого заставить AI понимать реальность — решение OpenAI отражает следующую отраслевую стратегическую высоту: модели мира. Согласно объяснениям таких учебных заведений, как Университет Фудань, модели мира понимают физический мир, обучаясь и предсказывая динамические характеристики объектов — например, движения, силы и пространственные связи — по сенсорным данным. С помощью моделей мира AI переходит от познания и распознавания к пониманию и рассуждению — это основа для воплощённого интеллекта и автономного, эффективного взаимодействия с объективной средой.

Заместитель декана Школы менеджмента Университета Фудань и руководитель кафедры информационного менеджмента и бизнес-аналитики Чжан Чэн в интервью репортёру «Сэкйхабо» заявил, что сущность «мышления» AI — это вероятностное прогнозирование на основе статистики данных; при этом у него нет подлинных эмоций и глубокого понимания мира. Корень проблемы в том, что модель в основном строится на языковых данных. Когда модель учится миру только через текст, её границы познания ограничиваются тем, что может выразить язык; в то время как модели мира позволяют системе описывать закономерности функционирования среды с помощью мультимодальной информации, включая зрение, слух, пространственную динамику и т. п.

Партнёр по аудиту Восточного и Западного регионов автомобильной отрасли KPMG в Китае Мяо Чжэнь в интервью репортёру «Сэкйхабо» сказал, что ключевая ценность моделей мира — в том, что они строят виртуальный параллельный мир, соответствующий физическим правилам. Через понимание среды в пространстве, прогнозирование с длинными временными горизонтами и выработку выходных решений система реализует сценарное моделирование, причинностное прогнозирование и покрытие «длинного хвоста» сценариев, компенсируя слабость чисто data-driven моделей, которые плохо обобщают в условиях крайних длиннохвостовых сценариев.

Если у роботов не будет моделей мира, их предел, вероятнее всего, — быть продвинутыми инструментами автоматизации для пассивного выполнения кода. Основатель и генеральный директор компании Kuowа Technology Хэ Яо привёл в интервью репортёру «Сэкйхабо» реальные трудности, с которыми сталкиваются чистящие роботы компании при внедрении в городских сценариях: роботы могут обходить стандартные стены, но когда приближаются к обломанной ветке или к нерегулярным навалам, поскольку в предустановленном коде не определены такие объекты, система воспринимает их как непроходимые препятствия и приводит к остановке на месте. «Если бы у системы были модели мира, она могла бы прогнозировать на основе материала и физических свойств, планировать траектории обхода и даже, при соблюдении безопасности, аккуратно подталкивать объект, чтобы пройти сквозь него и сохранять непрерывную работу».

Пир финансирования моделей мира сейчас в самом разгаре

С учётом перспектив и потенциала моделей мира внутри страны и за рубежом капиталы уже в больших объёмах делают ставки. В феврале этого года основанная Ли Фэйфэй компания по моделям мира завершила раунд финансирования на 1 млрд долларов; вскоре после этого стартап Ян Ликуня по моделям мира AMI также привлёк более 1 млрд долларов.

Что касается отечественного рынка: согласно данным Qichacha, в этом году внутри страны произошло 25 раундов финансирования, связанных с моделями мира; общий объём финансирования превысил 2,2 млрд юаней. В частности, 3 марта компания Jizhijingshijie объявила об успешном завершении Pre-B раунда на 1 млрд юаней, а в том же месяце — о том, что её воплощённая модель мира GigaWorld-1 поднялась на первое место в рейтинге WorldArena.

«“Финансовый ажиотаж” вокруг моделей мира показывает, что отраслевой консенсус уже формируется: AI выходит из цифрового мира в физический мир — это следующая главная линия сражений». Соответствующий руководитель компании Qinglang Intelligent в интервью репортёру «Сэкйхабо» заявил, что за последние 10 лет скачки возможностей AI в основном происходили на уровнях восприятия и языка. Но чтобы по-настоящему войти в физический мир, необходимо понимать законы его функционирования: пространственные связи, причинно-следственные связи и физические свойства.

Этот руководитель отметил, что ставка капитала на модели мира по сути означает ставку на триллионный по масштабу сегмент «физического AI». В будущем технический маршрут может сместиться от «единого большого» подхода к профессиональному разделению труда: модели мира отвечают за физическую интуицию, модели «зрение—язык—действие» (VLA) — за семантическое понимание, а слой базового управления — за точное выполнение. При чётком разделении ролей капитал также может находить более точные точки входа.

Хэ Яо в интервью репортёру «Сэкйхабо» сказал, что плотные и высокообъёмные раунды финансирования моделей мира, начиная с 2026 года, показывают, что капитал и технологическое сообщество единодушно признают: «следующая остановка больших языковых моделей — физический мир». Модели мира — обязательный путь к физическому AI, это «момент ChatGPT» для воплощённого интеллекта, который уже не за горами. В конкуренции в отрасли моделей мира в будущем компании, которые смогут контролировать масштабируемый вход в физические данные и замыкать коммерческий цикл, смогут возглавить эту волну технологической революции.

Можно сделать роботов более похожими на «людей»

За последние несколько лет цифровой AGI на основе больших языковых моделей переформатировал цифровой мир. Около половины глобального ВВП находится в физическом мире, и у физического AGI сохраняется бесконечный потенциал роста. А фундамент взлёта физического AGI — это модели мира. На основе накоплений и оседания данных по технологиям «end-to-end» и моделям для вертикалей в этом году несколько AI-компаний сместили опорные точки бизнеса в сторону моделей мира.

В феврале Kuowа Technology выпустила Coowa WAM 2.0 — универсальную модель мира. Хэ Яо сообщил журналистам, что выход этой модели мира призван решить две распространённые в отрасли проблемы воплощённого интеллекта: «дефицит обобщающей способности» и «потолок развития отрасли». Раньше отрасль во многом полагалась на rule-driven подходы или end-to-end модели для одного сценария; модель WAM 2.0 же даёт воплощённым физическим сущностям AI многомодальной формы возможность осмыслять здравым смыслом сложный физический мир, выполнять геометрические рассуждения и прогнозировать причинность.

Подобно тому, как итерации больших языковых моделей опираются на «маховик» данных из интернет-текстов, развитие моделей мира также зависит от ценных данных взаимодействия, которые производятся физическими конечными устройствами в реальном мире. Хэ Яо сказал, что компания планирует направить городских роботов класса «городской домоуправляющий», оснащённых моделью WAM 2.0, прямо в городские улицы для постоянной работы. Параллельно с созданием коммерческой выручки эти роботы будут постоянно возвращать в систему высококачественные данные физического мира, которые послужат для итераций моделей.

Qinglang Intelligent — лидер в сегменте сервисных роботов; объём отгрузок их коммерческих сервисных роботов занимает первое место в мире. Компания в прошлом году опубликовала первую в мире VLA-модель для индустрии сервиса — KOM2.0.

Недавно руководитель Qinglang Intelligent в беседе с репортёром «Сэкйхабо» сообщил, что компания активно изучает интеграцию VLA-модели с моделями мира. Слабость VLA-модели в том, что ей недостаёт причинного понимания физического мира, из-за чего сложно предсказать физические последствия действий. Модели мира — ключ к «обучению с малым числом примеров» и «нулевой-shot обобщаемости»: они позволяют роботу в «уме» смоделировать последствия действий, выбрать оптимальную стратегию.

«Модели мира — это также основа для безопасного взаимодействия человек—машина. В сценариях сервиса роботу нужно предвидеть последствия действий: например, при передаче предмета не допустить слишком сильного усилия и т. п. Без моделей мира робот не сможет по-настоящему понимать такие причинно-следственные цепочки». Далее упомянутый руководитель сказал: «В этом году компания в отдельных сценариях проведёт пилотное внедрение прогностических возможностей моделей мира, чтобы повысить приспособляемость роботов к среде и их безопасность».

Компания Shanghai Kepler Robotics Co., Ltd. (далее — «Kepler»), которая фокусируется на промышленных сценариях и разрабатывает «роботов из разряда синих воротничков», также начинает строить промышленную модель мира и домашнюю модель мира. Генеральный технический директор Kepler Си Ао в интервью репортёру «Сэкйхабо» заявил, что компания планирует сначала объединить промышленную модель мира с промышленной VLA, а затем проверить эффективность через небольшие POC (верификацию осуществимости), чтобы заложить основу для будущего широкомасштабного внедрения.

Датовые барьеры могут определить конкурентоспособность моделей мира

Прошлый год называют годом зарождения воплощённого интеллекта: пока роботы демонстрируют «кривляние» и «красивые трюки», выявляются и болевые точки — недостаток «умности». По мере того как всё больше компаний начинают разворачивать планы по моделям мира, некоторые инсайдеры прямо заявляют, что 2026 год может стать годом, который заложит основу для AGI на базе моделей мира. В этом году руководитель робототехнического направления Nvidia Джим Фэн публиковал статью, где писал, что 2026 год станет первым годом, когда большие модели мира действительно создадут базу для роботов и для более широкого класса мультимодального AI.

Хотя ожидания по перспективам широки, а темпы эволюции заметны, сегмент моделей мира всё ещё находится на ранней стадии, и в отрасли пока не сформировалась единая и зрелая техническая парадигма. Ещё сильнее отрасль тревожит то, что высококачественных данных физического мира недостаточно, и это серьёзно ограничивает распространение моделей мира.

Хэ Яо отметил, что эволюция моделей мира будет тесно связана с тремя основными этапами индустрии воплощённого интеллекта: от текущего перехода от вертикальной интеллектуализации к более широкой трансформации, затем к сценарию кооперации в ближайшие два года, и далее — к распространению в домашних сценариях через три—пять лет. В настоящее время отрасль находится в ключевой фазе перехода от первого этапа ко второму. Основная проблема на текущей стадии — крайняя нехватка высококачественных много модальных данных реальных взаимодействий физического мира.

«Данные об управлении нельзя полностью полагать на данные видео из интернета или на данные компьютерного симулирования. Иными словами, в теплице не вырастить настоящую модель мира; одними лишь облачными данными симуляции проблему бесконечного длинного хвоста физического мира не решить». Так сказал Хэ Яо.

Руководитель Qinglang Intelligent сообщил журналистам, что в краткосрочной перспективе VLA в сочетании с reinforcement learning уже способна решать множество практических задач. Но в среднесрочном плане развития воплощённого интеллекта, по мере того как роботы войдут в более открытую и сложную среду (например, дом, общественные места), система без моделей мира столкнётся с «узким местом» обобщения. Тогда у игроков, обладающих возможностями моделей мира, появится поколенческое преимущество. В долгосрочной перспективе модели мира станут обязательной способностью универсальных роботов.

«Формируются дата-барьеры, и первоочередное преимущество крайне важно. Получение высококачественных физических данных и их корректное использование — ключевые вызовы». Вышеупомянутый руководитель подчеркнул, что капитал ставит на то, сможет ли компания «прокрутить» цикл «данные — модель — сценарий». Если компания первой сможет завершить масштабированное развёртывание в реальных сценариях, она сможет сформировать преимущество первопроходца.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить