Топ-фонды Кремниевой долины делают коллективные ставки! Goldman Sachs раскрывает подробный анализ следующего рубежа ИИ — "мировых моделей"

Большие модели прошли путь «языка» до сегодняшнего дня, и границы становятся всё яснее: они умеют писать, искать, редактировать и программировать, но как только задачи выходят за рамки трёхмерного пространства, временной эволюции и физических ограничений, готовые парадигмы начинают испытывать трудности. Morgan Stanley делает ставку на следующий этап роста — «мировую модель» — чтобы научить ИИ понимать, моделировать и принимать решения в окружающей среде. Это применимо не только в робототехнике и автономном вождении, но и в переосмыслении игр, дизайна, кинопроизводства и других цифровых индустрий.

По данным Zhifeng Trading, аналитик акций команды Morgan Stanley в Северной Америке Адам Джонас прямо в последнем отчёте заявил: «ИИ выходит за пределы языка и движется к моделям, которые понимают, моделируют и ориентируются в физическом мире». Подразумевается, что в следующем этапе конкуренции важна не только способность чат-ботов выглядеть как человек, а умение сжать законы реального мира в внутреннее представление, которое можно использовать как «интерактивный воображающий движок».

Доказательства, приведённые в отчёте, основаны не на фантазиях, а на уже реализованных инженерных практиках: Waymo использует мировую модель на базе DeepMind Genie 3 для виртуальных тестов на «миллиарды миль»; Microsoft с помощью Muse создала версию «Quake II» 1997 года с полным AI-рендерингом и возможностью играть; Roblox опубликовала исследования по созданию иммерсивных сред с помощью собственной мировой модели и итерации игр на естественном языке. Крупные компании (DeepMind, Meta, Microsoft, Tesla, Nvidia) работают в этой области, а новые стартапы активно привлекают таланты и финансирование.

Особенно важно, что Morgan Stanley в этом материале сосредоточился на двух новых игроках: Li F飞飞 с World Labs, которая занимается «генерацией навигационных 3D-миров», и Yang Likun с AMI Labs, которая фокусируется на «эффективном обучении скрытых пространственных представлений для предсказаний и рассуждений». За этими двумя направлениями стоит одна и та же проблема: как именно ИИ должен «понимать мир» и когда это понимание превратится из демонстрации в производственный инструмент.

От языка к физике: что нужно дополнить в мировых моделях — это «жёсткие недостатки» LLM

Отмечается, что «физический мир» — это более сложное поле: он подчиняется законам материи, термодинамики, гидродинамики, освещения и других физических правил, функционируя в постоянно меняющемся трёхмерном пространстве. Обучение LLM в основном сосредоточено на текстах и их вариациях, хорошо справляется с задачами офисного характера (кодирование, поиск, написание), но для вопросов типа «что произойдёт через секунду», «какой будет результат моего действия» — не хватает не данных, а способности поддерживать согласованное внутреннее представление среды и делать долгосрочные предсказания.

Поэтому мировая модель определяется как «внутреннее представление окружающей среды»: она должна не только воспроизводить текущие наблюдения, но и уметь прокручивать состояние вперёд, а при изменении условий «действий» давать разные ветви будущего — то есть, метафорически говоря, это «воображающий движок» ИИ.

Мировая модель — это не один конкретный объект: существует пять основных параллельных путей

Morgan Stanley условно разделил текущие подходы на несколько категорий (подчеркивая, что границы постепенно стираются):

  • Интерактивные, условно-активные мировые модели: как «выученные игровые движки», где среда меняется в реальном времени в зависимости от действий агента (пример: DeepMind Genie).

  • Консистентные 3D-генераторы миров: подчеркивают геометрическую согласованность и возможность исследования с разных точек зрения (пример: World Labs Marble).

  • Абстрактные представления / негенеративные модели: не стремятся к пиксельной точности, а предсказывают более высокоуровневую структуру скрытого пространства и динамики, ориентированы на эффективность и рассуждение (пример: Meta V-JEPA, AMI Labs).

  • Прогнозирующие генеративные модели мира: больше похожи на «предсказание следующего кадра / следующего состояния», используются для планирования, предсказаний и рассуждений при управлении (пример: Wayve GAIA, NVIDIA Cosmos Predict).

  • Модели, основанные на физических ограничениях и симуляции: объединяют мировую модель с симуляторами, физическими движками и пайплайнами данных для генерации более «физически согласованных» синтетических данных для обучения роботов (пример: NVIDIA Cosmos Transfer).

Эта классификация важна потому, что под одним названием «мировая модель» могут скрываться разные подходы: одни стремятся создать «мир, в который можно гулять», другие — «сжать мир в вычисляемое состояние». Их продуктовые формы, вычислительные архитектуры и бизнес-модели существенно различаются.

Сначала — в игры и контент: замена движка кажется привлекательной, но это не так быстро

Игры — самый «наглядный» пример из отчёта: мировая модель способна по малому количеству подсказок создавать интерактивную среду, что может вывести скорость производства контента на новый уровень. Пример — Microsoft с Muse создала играбельную версию «Quake II», где больше не нужно рендерить каждую сцену по кадру традиционным движком — модель предсказывает каждый кадр на основе входных данных игрока.

Однако аналитическая команда Morgan Stanley по видеоиграм (цитируется рамочный подход Matt Cost) не разделяет этот оптимизм: в долгосрочной перспективе возможны два сценария — крупные игроки интегрируют ИИ в свои инструменты для «адаптации», или отрасль будет серьёзно трансформирована/замещена новыми парадигмами. Замена кажется проще, потому что современные модели уже умеют «генерировать играбельный мир на естественном языке».

Проблемы начинаются дальше: скорость и стоимость вычислений, возможно, решаемы, но «мета-системы» и задержки — гораздо сложнее. А такие вопросы, как «детерминизм», «память», «обновление», — в рамках мировой модели могут стать «жёсткими костями». Это означает, что в краткосрочной перспективе старые игроки имеют окно возможностей, а в долгосрочной — угрозы остаются.

Автономное вождение и робототехника — более прагматичные области: виртуальный мир используют для «дополнения данных» и «предварительного планирования»

Задача в автономном вождении ясна: переносить опасные, редкие и дорогостоящие «краевые сценарии» в виртуальную среду для масштабных тестов. В отчёте упоминается, что Waymo использует мировую модель на базе DeepMind Genie 3 для «миллиардов миль» виртуальных тестов, чтобы обучать и проверять системы в редких ситуациях — таких, что в реальности их трудно встретить или они слишком рискованны.

Что касается роботов, то логика более инженерная: мировая модель помогает решить две задачи — объем тренировочных данных и предварительное рассуждение перед выполнением. Исследования показывают, что обучение роботов на данных, сгенерированных моделью, может быть сопоставимо с обучением на реальных данных взаимодействия. Но Morgan Stanley чётко разделяет границы: в краткосрочной перспективе, мировая модель и симуляционные данные скорее дополнят реальную цепочку данных, чем заменят её.

Настоящие сложности — в «контакте и трениях»: отчёт подчёркивает, что очень важны мельчайшие физические параметры — слабое усилие пальца, разница в состоянии исполнительных механизмов, микроскопические изменения трения и свойств материалов, даже статическое трение в суставах — всё это может привести к значительным расхождениям при переносе из симуляции в реальность.

Самое сложное — «долгосрочная стабильность» и «контролируемость»: есть несколько барьеров

Отмечается, что эти вызовы очень конкретны и не пощадят:

  • Накопление ошибок и дрейф во времени: чем дольше взаимодействие, тем выше вероятность смещения объектов, деформации геометрии и отклонения физических правил. Genie 3, считающийся продвинутым, сейчас поддерживает только «несколько минут» непрерывного взаимодействия.

  • Недостаточная управляемость: даже при красивой графике, если действия ограничены базовыми перемещениями, ценность продукта снижается.

  • Многопользовательские и социальные сценарии: взаимодействие нескольких человек, машин или роботов одновременно — гораздо сложнее, чем одинарное прохождение камеры. DeepMind отмечает, что это одна из сложных задач Genie 3.

  • Объем и разнообразие данных: особенно в робототехнике — сбор реальных сенсорных данных дорог и медленен.

  • Отсутствие единого стандарта оценки: как измерить качество долгосрочного взаимодействия, нет общепринятых критериев, прогресс часто зависит от демонстраций и тестовых задач.

Эти ограничения формируют реальный ритм развития: сначала мировые модели скорее всего распространится в области цифрового контента с высокой терпимостью к ошибкам и быстрой итерацией, а затем — постепенно — проникнут в отрасли, требующие строгой физической точности.

Li F飞飞 делает ставку: чтобы ИИ «понимал» трёхмерное пространство

Morgan Stanley позиционирует World Labs как представителя «генерации согласованных 3D-миров». Компания, основанная Li F飞飞 и командой в 2023 году, вышла из скрытности в 2024-м; её флагманский продукт Marble был анонсирован в ноябре 2025 года. Цель — по тексту, изображению, короткому видео или грубому 3D-входу создавать «устойчивые, исследуемые» трёхмерные среды, которые можно редактировать и расширять.

Функционал больше похож на рабочий стол для творчества и производства: возможность удалять и изменять объекты, сначала создавать грубые формы с помощью «Chisel», затем добавлять детали, расширять области, объединять несколько миров в большие сцены, экспортировать в сторонние 3D-программы или движки, а также предоставлять API для разработчиков.

Также подчёркивается интеграция с индустриальными инструментами: экспорт в Unreal Engine и Unity, взаимодействие с платформами вроде NVIDIA Isaac Sim, демонстрация использования в архитектуре, робототехнике и других сферах.

Инвестиционный интерес тоже отражён: по оценкам PitchBook, суммарное финансирование World Labs достигло примерно 1,29 миллиарда долларов, а после раунда в феврале 2026-го их оценка выросла примерно до 5,4 миллиарда долларов.

Другая стратегия Yang Likun: без рендеринга, только предсказание структур

История AMI Labs — это больше «исследовательская парадигма»: компания, основанная в марте 2026 года с участием Yann LeCun, ориентирована на рамки JEPA — не восстанавливать каждый пиксель, а предсказывать скрытые представления (latent embeddings) occluded / будущих частей, используя более абстрактные структурные модели для изучения эволюции мира. Morgan Stanley относит её к «абстрактным представлениям / негенеративным моделям», подчеркивая её потенциал для рассуждений, планирования и физических AI-систем (особенно в робототехнике).

В отчёте о конкретных продуктах AMI мало информации, лишь возможные направления применения: роботы, автономное вождение, видеоанализ, AR/VR с камерами и интеллектуальные ассистенты. В финансировании отмечается, что AMI Labs привлекла более 1 миллиарда долларов на посевной стадии, а их оценка по данным PitchBook превышает 4,5 миллиарда.

Капитал и таланты собираются, конкуренция за пространственный интеллект ускоряется

Самый важный сигнал этого отчёта — не конкретные параметры модели или демонстрации, а общая картина: от DeepMind, Meta, Microsoft, Tesla, Nvidia и новых стартапов — мировая модель становится «языком следующего этапа». Она объясняет, почему в области игр, кино, дизайна происходит рост производительности, а также почему автоматическое вождение и робототехника всё больше переносят обучение, проверку и планирование в виртуальную среду.

Мировая модель — это не универсальный «вставляемый» компонент. Итоговые выводы скорее похожи на дорожную карту: уже есть сценарии, где она работает, но основные сложности — долгосрочная стабильность, управляемость, многопользовательские сценарии, физические детали и системы оценки. Кто сможет решить эти жёсткие задачи и превратить их в инженерные решения — определит, насколько далеко пойдёт «цифровое превращение в физику».

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить