Діалог a16z: LLM є втратою стиснення, світова модель є справжнім напрямком.

金色财经_

2025-06-05 13:42:38

World Labs — це стартап, заснований відомим експертом у галузі штучного інтелекту, професором Стенфордського університету Лі Фейфеєм у 2024 році, що прагне розробити наступне покоління систем штучного інтелекту з “просторовим інтелектом”.

З моменту свого заснування World Labs завершила два раунди фінансування на загальну суму приблизно 230 мільйонів доларів. Серед основних інвесторів – a16z, Radical Ventures, NEA, Nvidia NVentures, AMD Ventures та Intel Capital. Оцінка компанії перевищила $1 млрд всього за три місяці, що зробило її новим єдинорогом у сфері штучного інтелекту.

Нещодавно Лі Фейфей мала розмову з двома партнерами a16z, Мартіном Касадо та Еріком Торенбергом, і вона вперше публічно розповіла про побудову концепції, дослідницький напрямок та грандіозне бачення, що стоїть за їхнім співзаснуванням World Labs: минуле та сьогодення стратегії платформи a16z: від венчурного капіталу, який «не бажає витирати дупу» до «повного стекового сервісу».

Лі Фейфей спочатку вказала на основну думку цієї розмови: “Мені не потрібно, щоб великі мовні моделі переконували мене, світова модель - це справді важливий напрямок.”

Вона наголосила, що просторовий інтелект – чи то тривимірний фізичний світ, у якому ми живемо, чи уявний цифровий всесвіт – є невід’ємною частиною інтелекту. І сьогодні ми нарешті маємо можливість генерувати та перебудовувати ці всесвіти.

▍Інтелект, що старший за мову: просторове сприйняття та тривимірне відтворення

Лі Фейфей вказував, що в порівнянні з мовою, просторове сприйняття є більш давньою та інстинктивною здатністю в процесі еволюції людини. Вона поділилася особистим досвідом: кілька років тому через травму рогівки, яка спричинила короткочасну втрату стереоскопічного зору, за цей час вона боялася керувати автомобілем сама, навіть по знайомій вулиці, і важко було судити про відстань від автомобіля поруч із нею.

Цей експериментальний досвід дав їй глибоке розуміння основної ролі тривимірних систем сприйняття в людських діях. А для ШІ, якщо не вдасться створити модель тривимірного світу, неможливо справді зрозуміти, взаємодіяти або відтворити реальний світ.

Мартін Касадо додає, що відсутність тривимірного інтелекту є ключовою причиною, чому роботи та втілені системи інтелекту повільно приземляються. На прикладі обивателя він пояснює, що якщо ви заведете людину в незнайому кімнату, зав’яжете їй очі, опишете простір одними словами, а потім дасте виконати завдання – це майже неможливо. Як тільки очі відкриваються, мозок автоматично реконструює просторову модель і завершує дію. Такого роду можливості реконструкції повністю відсутні в нинішніх основних мовних моделях.

▍Технічна критична точка від NeRF до світової моделі

Говорячи про те, чому було вирішено заснувати World Labs саме зараз, Лі Фейфей вважає, що це результат тривалих академічних досліджень і накопичення промислової бази.

Вона згадала, що ще чотири роки тому прорив у дослідженні під назвою NeRF (нейронне радіаційне поле) відкрив нові шляхи для тривимірного візуального моделювання. А автором NeRF є один із співзасновників World Labs Бен Мілденхолл.

Інший засновник Кристофер провів новаторські дослідження в галузі ефективного тривимірного представлення, що сприяло поверненню об’ємного 3D-моделювання в промисловості.

Додатково до цього, раннє використання технології GAN для перенесення стилю зображення Джастином Джонсоном дозволило об’єднати ці розрізнені дослідження в одній команді, навколо “північної зірки” мети: побудувати світову модель здатності ШІ.

Мартін пояснює цю мету глибокою інтеграцією двох систем: моделі штучного інтелекту, даних і самої архітектури, а також інженерної системи для рендерингу графіки та просторової реконструкції. Надання можливості експертам з цих двох світів ефективно співпрацювати на єдиній платформі саме по собі є важливою організаційною інновацією в технологічній галузі.

▍Мовні моделі не є кінцевою точкою, а лише початком

Лі Фейфей наголосила, що її віра в модель світу походить не від розчарування в LLM, а від подальшого розуміння природи інтелекту.

Вона зазначила, що мова є формою «деструктивного стиснення» пізнання, яка абстрагує світ, але й втрачає багатство фізичної та чуттєвої інформації. Справжній реальний світ не має слів, граматики та тексту, а тільки фізику, рух і тривимірну структуру.

Це сприйняття також змінило її уявлення про те, як має виглядати компанія, що займається штучним інтелектом. Вона перетворилася з професора Стенфордського університету на підприємця, тому що зрозуміла, що для моделювання просторового інтелекту недостатньо одних академічних досліджень – для цього потрібні інвестиції в промислові обчислення, планування архітектури на рівні системи та здатність до співпраці найкращих транскордонних талантів.

А все це може справді реалізуватися лише в компанії з високим рівнем організації та видатними можливостями для співпраці в усіх етапах розробки.

▍Інтелектуальні просторові додатки значно перевершують роботів

Для більшості людей «світова модель» все ще є абстрактним науковим терміном. Але Лі Фейфей і Мартін спільно зазначають, що її застосування значно ширше, ніж лише автоматичне водіння та робототехніка.

Творчість за своєю суттю візуальна. Промисловий дизайн, кіновиробництво, архітектурна композиція і навіть розробка ігор – все це залежить від 3D-будівництва та управління. І якщо ШІ має здатність моделювати світ, він може не лише «розуміти» 3D-світ, а й «генерувати» та «маніпулювати» віртуальним простором.

Мартін описує, що за допомогою лише фотографії столу модель може визначити форму та матеріал, що стоять за ним, щоб побудувати повну просторову сцену. Крім того, користувачі навіть можуть вимірювати, додавати, видаляти або перепроектувати простір. Це більш інтуїтивно зрозумілий і вільний спосіб взаємодії людини і комп’ютера, ніж текстові команди, і він також відкриває абсолютно новий вимір проектування, творчості та експериментів з моделюванням.

Лі Фейфей також зазначив, що цифровий простір надає безпрецедентні можливості для змін: «Досі люди жили лише в тривимірному фізичному світі. Але цифровий світ вперше дозволить нам увійти в «мультивсесвіт». ”

Вона наводить кілька прикладів: всесвіти, створені для роботів, всесвіти для людської творчості, а також наративи, комунікація та експериментальні подорожі. Ці простори, які колись існували лише в уяві, тепер будуть по-справжньому породжені, зрозумілі, використані та перетворені машинами.

▍Базова модель наступного бою, тривимірне панорамне моделювання

Повертаючись до самої технології, Лі Фейфей підкреслив, що World Labs – це не лише створення штучного інтелекту, який «може бачити», а й надання можливості штучному інтелекту розуміти тривимірну структуру, динаміку та комбінаторну логіку світу. Це не просто складніша інженерна проблема, це абсолютно нова філософія репрезентації.

Вона вважає, що наукові відкриття, такі як структура подвійної спіралі ДНК і сфера Бакі, є результатом просторового інтелекту. Вивести такі геометрії чисто за допомогою мови неможливо. Ось чому модель світу може не тільки поліпшити розуміння здатності машин, але і відкрити нові творчі шляхи для науки і мистецтва людини.

Мартін робить висновок, що революція LLM є свідченням того, що коли ми отримуємо правильні структури даних і моделі, можливості штучного інтелекту можуть експоненціально покращуватися. Тепер вони вважають, що «світова модель» стоїть на аналогічному переломному етапі.

▍Ключ до розуміння та побудови світу

«Ми насправді йдемо назад у еволюції.» Коли Мартін висловив цю думку, вся розмова перейшла на філософський рівень.

Мова є одним з останніх модулів в еволюції людського мозку, в той час як системи просторового сприйняття існують з часів членистоногих і існують вже 500 мільйонів років. Сьогоднішній штучний інтелект, якщо він лише «вчить мову», насправді не можна назвати «розумінням світу». Лише побудувавши космічну модель, схожу на людську, штучний інтелект може по-справжньому ступити у двері «втіленого інтелекту».

Лі Фейфей в своєму звичному рішучому тоні підсумувала: “Я завжди чекала цього дня. Не тому, що я не вірю в мовні моделі, а тому, що я добре усвідомлюю: справжній світ не складається з тексту.”

Модель світу є ключем до того, щоб дозволити штучному інтелекту по-справжньому розуміти та будувати світ. Від I/O до iO Джоні Айв стане рушійною силою нового руху дизайну – штучний інтелект переписує обчислювальні парадигми та визначення апаратного забезпечення, а також це нове поле битви за великими моделями.

A0.82%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.