Кремнієва долина топ-фондів дають колективну ставку! Morgan Stanley випускає детальний аналіз наступного рубежу AI — "світові моделі"

大模型把“мови” цю дорогу пройшли до сьогодні, межі стають все яснішими: вони добре пишуть, шукають, редагують, програмують, але як тільки питання стосуються тривимірного простору, еволюції часу та фізичних обмежень, готові парадигми починають даватися важко. Morgan Stanley покладає наступне зростання на “світову модель” — щоб навчити ШІ розуміти, імітувати та приймати рішення в навколишньому середовищі, застосування не лише у робототехніці та автопілоті, а й у перетворенні ігор, дизайну, кіновиробництва та інших цифрових індустрій.

За даними Zhifeng Trading台, аналітик акцій команди Morgan Stanley у Північній Америці Adam Jonas у найновішому звіті прямо пише: “AI виходить за межі мови до моделей, що розуміють, імітують і орієнтуються у фізичному світі.” Підсвідомий підтекст цієї фрази: у наступному раунді конкуренції — не у тому, хто більше схожий на людину у чаті, а у тому, хто зможе стиснути закони реального світу у внутрішню репрезентацію, що її можна використовувати, і перетворити її у взаємодійну “машину уяви”.

Докази, наведені у звіті, ґрунтуються не на фантазіях, а на вже реалізованих інженерних практиках: Waymo за допомогою світової моделі на базі DeepMind Genie 3 провела “мільярди миль” віртуальних тестів; Microsoft за допомогою Muse зробила версію “Quake II” 1997 року з повністю AI-рендерингом і можливістю грати; Roblox також оприлюднив дослідження з генерації занурювального середовища за допомогою власної світової моделі та ітерацій у грі за допомогою природної мови. Ведучі компанії — DeepMind, Meta, Microsoft, Tesla, NVIDIA — активно працюють, а нові стартапи борються за кадри та фінанси.

Ще більш важливо, що Morgan Stanley у цьому матеріалі звертає увагу на дві нові компанії: Li Feifei з World Labs, яка орієнтується на “генерацію навігаційних 3D-світі”, та Yang Likun з AMI Labs, що зосереджена на “ефективному навчанні прихованих просторів для прогнозування та дедукції”. За цими двома напрямками стоїть одна й та сама проблема: у чому саме полягає “розуміння світу” ШІ, і коли це розуміння перетвориться з демонстраційного прототипу у продуктивний інструмент.

Від мови до фізики: світова модель має доповнити слабкі місця LLM

Звіт описує “фізичний світ” як більш складний театр: він підпорядкований законам матерії, термодинаміки, рідин, освітлення тощо, і функціонує у постійно змінюваному тривимірному просторі. Об’єкти, що навчаються у LLM, — це переважно текст і його варіанти, вони добре справляються з офісними завданнями (кодинг, пошук, написання), але для питань “що станеться за секунду” або “який буде наслідок моєї дії” їм бракує не мовних даних, а здатності довгостроково зберігати послідовну внутрішню репрезентацію середовища та робити прогнози.

Тому світова модель визначається як “внутрішня репрезентація середовища”: вона має не лише відтворювати те, що бачить зараз, а й здатна рухати стан уперед і давати різні гілки майбутнього при зміні “умов дії” — тобто, метафорично, це “машина уяви” ШІ.

Світова модель — це не один об’єкт: п’ять основних напрямків у паралелі

Morgan Stanley умовно класифікує сучасні підходи (з наголосом, що межі між ними поступово розмиваються):

  • Інтерактивна, дії-залежна світова модель: “навчений ігровий движок”, що змінюється у реальному часі залежно від дій агента (наприклад, DeepMind Genie).

  • Консистентний 3D-генератор світу: акцент на геометричну цілісність і можливість дослідження з різних ракурсів (наприклад, World Labs Marble).

  • Абстрактне представлення / негенеративна модель: не прагне до піксельної точності, а прогнозує вищий рівень прихованих структур і динаміки, орієнтована на ефективність і дедукцію (наприклад, Meta V-JEPA, AMI Labs).

  • Прогнозуюча генеративна модель світу: схожа на “прогноз наступної сцени/стану”, використовується для планування, передбачення і навігації (наприклад, Wayve GAIA, NVIDIA Cosmos Predict).

  • Фізично обмежена симуляція: поєднує світову модель із фізичними та симуляційними движками, створюючи “фізично узгоджені” синтетичні дані для тренування роботів (наприклад, NVIDIA Cosmos Transfer).

Ця класифікація має практичний сенс: під назвою “світова модель” ховається різне — від “генерації досліджуваного світу” до “стиснення світу у обчислюваний стан” — і продукти, обчислювальні архітектури, бізнес-моделі у кожного свої.

Спершу — у ігри та контент: замінити движки — привабливо, але не швидко

Ігри — найнаочніший приклад у звіті: світова модель може з мінімальним підказом створювати взаємодійне середовище, а швидкість виробництва контенту може злетіти до нових рівнів. Microsoft з Muse створила грабельний “Quake II”, що імітує реальний движок — без покладанняся на традиційний рендеринг кадр за кадром, а на передбачення кожного кадру за допомогою моделі.

Але аналітики Morgan Stanley (з посиланням на рамки Matt Cost) не мають романтичних очікувань: у довгостроковій перспективі можливі два сценарії — старі гіганти інтегрують ШІ у свої інструменти для “адаптації”, або нові парадигми їх витіснять/серйозно порушать. Другий сценарій здається простішим, адже сучасні моделі вже здатні “генерувати ігровий світ за допомогою природної мови”;

проте складність у тому, що обчислювальні ресурси та вартість можуть бути вирішеними, але “мета-системи, затримки” — ні. А питання “детермінізму, пам’яті, оновлення” у світовій моделі — це “жорсткі кости”. Це означає, що короткострокові обмеження дають вікно для старих гравців, але довгострокові загрози залишаються.

Автопілот і робототехніка — більш прагматичні: віртуальний світ для “доповнення даних” і “спершу подумати, потім діяти”

Автопілот має чіткий фокус: переносити у віртуальне середовище рідкісні, небезпечні, дорогі “крайові сценарії”. Згідно з звітом, Waymo використовує світову модель на базі DeepMind Genie 3 для мільярдів миль віртуального тестування — щоб тренувати і перевіряти системи у рідкісних ситуаціях, що у реальності важко або небезпечно.

Щодо робототехніки — логіка схожа на інженерну: світова модель може вирішити дві задачі — збільшення обсягу тренувальних даних і передбачення перед виконанням. Згідно з дослідженнями, навчання роботів на згенерованих моделлю даних може бути не гірше, ніж на реальних. Але Morgan Stanley чітко окреслює межі: у короткостроковій перспективі світова модель і симуляційні дані — це швидше доповнення до реальних даних, а не їх заміна.

Деталі, що справді важливі — це “контакт і тертя”: у звіті наголошується, що малі фізичні величини — найключовіші: мікросили натискання пальця, стан виконавця, мікроскопічні зміни у терті поверхонь, навіть статичне тертя у суглобах — все це може спричинити значний розрив між симуляцією і реальністю.

Найскладніше — “довгострокова стабільність” і “керованість”:

Звіт детально і безжально описує виклики:

  • Накопичення помилок і часова динаміка: чим довше взаємодія, тим більша ймовірність drift, деформацій і відхилень фізичних правил. Навіть Genie 3 наразі підтримує лише кілька хвилин безперервної взаємодії.

  • Обмежена керованість: навіть гарна графіка і базові рухи — обмежують цінність продукту.

  • Мультиагенти і соціальні динаміки: взаємодія кількох агентів, багато роботів або автомобілів — набагато складніше, ніж один, і DeepMind визнає, що це одна з головних проблем Genie 3.

  • Обсяг і різноманітність даних: у робототехніці збір реальних сенсорних даних дорогий і повільний.

  • Відсутність єдиного стандарту оцінки: як вимірювати якість довготривалої взаємодії — невідомо, і прогрес часто залежить від демонстрацій і тестових задач.

Ці обмеження визначають реальний темп: світові моделі спершу поширюватимуться у високовитратних цифрових контентах, а потім поступово проникатимуть у сфери, що вимагають фізичної точності.

Li Feifei і World Labs: ставка на “розуміння тривимірного простору”

Morgan Stanley ставить світову модель у центр “створення стабільних 3D-світі” — компанія заснована у 2023 році командою Лі Фейфей, яка у 2024 році стала відкритою. Її головний продукт Marble у листопаді 2025 року презентовано як інструмент для генерації “стійких, досліджуваних” тривимірних середовищ з тексту, зображень, коротких відео або грубих 3D-входів, з можливістю редагування та розширення.

Функціонал схожий на робочу станцію для творчості: можна видаляти і додавати об’єкти, створювати грубі моделі “Chisel”, розширювати сцени, з’єднувати кілька світів у більші, експортувати у сторонні 3D-движки або API для розробників.

Вони також інтегруються з Unreal Engine, Unity, NVIDIA Isaac Sim і демонструють застосування у архітектурі, робототехніці та інших сферах.

Капіталізація компанії — за оцінками PitchBook, зібрано близько 1.29 млрд доларів, а після раунду у лютому 2026 року її оцінка сягне приблизно 5.4 млрд доларів.

Yang Likun і шлях без рендерингу — прогноз структури

Історія AMI Labs — це більше “дослідницька парадигма”: заснована у березні 2026 року Yann LeCun, вона орієнтована на JEPA — не відновлювати кожен піксель, а прогнозувати приховані представлення (latent embeddings) частин, що приховані або майбутні, використовуючи більш абстрактну структуру для вивчення еволюції світу. Morgan Stanley класифікує її як “абстрактне представлення / негенеративну модель”, підкреслюючи її потенціал у дедукції, плануванні і фізичних AI-системах (зокрема, робототехніці).

Про конкретні продукти AMI мало відомо, але можливі сфери застосування — робототехніка, автопілот, відеоаналіз, AR/VR з камерами, голосові асистенти. За даними, компанія залучила понад 1 млрд доларів у посівному раунді, і її оцінка перевищує 4.5 млрд доларів.

Капітал і таланти зосереджуються: починається “гонка за простором розуму”

Найважливіший сигнал у цьому матеріалі — не конкретний параметр моделі або демонстрація, а зміна парадигми: від DeepMind, Meta, Microsoft, Tesla, NVIDIA до нових стартапів — світова модель стає “мовою наступного етапу”. Це пояснює, чому у іграх, кіно, дизайні з’являється продуктивність, а у автопілоті та робототехніці все більше тренувань, перевірок і планування переносяться у віртуальне середовище.

Світова модель — не універсальний плагін. Звіт пропонує дорожню карту: вже з’явилися застосунки, але справжні складнощі — у довгостроковій стабільності, керованості, мультиагентності, фізичних деталях і системах оцінки. Наступний виклик — перетворити ці технічні виклики у цілісну інженерну систему, і тоді “цифра і фізика” зможуть рухатися разом.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити